[發(fā)明專利]復(fù)雜環(huán)境中多人語音的分割聚類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911414495.1 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111063341B | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設(shè)計(jì))人: | 黃厚軍;項(xiàng)煦;錢彥旻 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/08;G10L15/26;G10L17/02;G10L17/14;G10L17/22 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 復(fù)雜 環(huán)境 人語 分割 方法 系統(tǒng) | ||
1.一種復(fù)雜環(huán)境中多人語音的分割聚類方法,包括:
步驟S101,根據(jù)多人說話音頻獲取多段連續(xù)的多人說話語音片段音頻;所述多人說話音頻中或多人說話音頻片段音頻中具有多個(gè)人的語音音頻;
步驟S102,從所述多人說話語音片段音頻中提取聲學(xué)特征;根據(jù)所述聲學(xué)特征對所述多人說話語音片段音頻歸一化獲取歸一化音頻;
步驟S103,根據(jù)設(shè)定分割片段時(shí)長分割所述歸一化音頻,獲取多段待處理音頻;
步驟S104,提取所述多段待處理音頻的聲紋信息特征;
步驟S105,根據(jù)所述多段待處理音頻的聲紋信息特征,對所有待處理音頻段之間通過設(shè)定打分準(zhǔn)則獲取打分?jǐn)?shù);根據(jù)所述打分?jǐn)?shù)獲取所有待處理音頻段之間的相似度分?jǐn)?shù);
步驟S106,根據(jù)所述所有待處理音頻段之間的相似度分?jǐn)?shù),通過多階段冗余聚類算法獲取所述多個(gè)人的類別標(biāo)簽;
步驟S107,根據(jù)所述多個(gè)人的類別標(biāo)簽對所述多人說話音頻分割聚類;
其中,所述步驟S106中所述多階段冗余聚類算法包括:
步驟S1061,獲取目標(biāo)說話人數(shù);
步驟S1062,根據(jù)所述目標(biāo)說話人數(shù)及設(shè)定冗余類數(shù)設(shè)定當(dāng)前聚類數(shù);
步驟S1063,根據(jù)所述所有待處理音頻段之間的相似度分?jǐn)?shù),通過具有所述當(dāng)前聚類數(shù)的聚類算法獲取當(dāng)前聚類信息;
步驟S1064,根據(jù)目標(biāo)說話人數(shù)從所述當(dāng)前聚類信息中獲取主類的標(biāo)簽;
步驟S1065,對冗余類數(shù)所對應(yīng)中冗余類的每個(gè)元素計(jì)算其與主類的中心距離;從中獲取與所述主類中心距離最近的主類的類別標(biāo)簽作為此元素的類別標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的分割聚類方法,其中,步驟S101中所述根據(jù)多人說話音頻獲取多段連續(xù)的多人說話語音片段音頻的步驟包括:
對多人說話音頻通過語音檢測模塊處理,將所述多人說話中的靜音時(shí)段的音頻去除,獲取多段連續(xù)的多人說話語音片段音頻。
3.根據(jù)權(quán)利要求2所述的分割聚類方法,其中,所述步驟S103中的設(shè)定分割片段時(shí)長為1.5s~2.0s;所述多段待處理音頻的段間留有0.75s的重疊音頻區(qū)間。
4.根據(jù)權(quán)利要求2或3所述的分割聚類方法,其中,所述步驟S104中提取所述多段待處理音頻的聲紋信息特征的步驟包括:
通過傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)算法或深度學(xué)習(xí)算法提取所述多段待處理音頻的聲紋信息特征。
5.根據(jù)權(quán)利要求1所述的分割聚類方法,其中,所述步驟S105中所述設(shè)定打分準(zhǔn)則包括:cosine距離或者plda模型打分。
6.一種復(fù)雜環(huán)境中多人語音的分割聚類系統(tǒng),包括:
多人說話語音片段音頻獲取單元,其配置為根據(jù)多人說話音頻獲取多段連續(xù)的多人說話語音片段音頻;所述多人說話音頻中或多人說話音頻片段音頻中具有多個(gè)人的語音音頻;
歸一化音頻獲取單元,其配置為從所述多人說話語音片段音頻中提取聲學(xué)特征;根據(jù)所述聲學(xué)特征對所述多人說話語音片段音頻歸一化獲取歸一化音頻;
多段待處理音頻獲取單元,其配置為根據(jù)設(shè)定分割片段時(shí)長分割所述歸一化音頻,獲取多段待處理音頻;
聲紋信息特征獲取單元,其配置為提取所述多段待處理音頻的聲紋信息特征;
打分獲取單元,其配置為根據(jù)所述多段待處理音頻的聲紋信息特征,對所有待處理音頻段之間通過設(shè)定打分準(zhǔn)則獲取打分?jǐn)?shù);根據(jù)所述打分?jǐn)?shù)獲取所有待處理音頻段之間的相似度分?jǐn)?shù);
多階段聚類獲取單元,其配置為根據(jù)所述所有待處理音頻段之間的相似度分?jǐn)?shù),通過多階段冗余聚類算法獲取所述多個(gè)人的類別標(biāo)簽;
分割聚類單元,其配置為根據(jù)所述多個(gè)人的類別標(biāo)簽對所述多人說話音頻分割聚類;
其中,所述多階段聚類獲取單元還配置為:
獲取目標(biāo)說話人數(shù);
根據(jù)所述目標(biāo)說話人數(shù)及設(shè)定冗余類數(shù)設(shè)定當(dāng)前聚類數(shù);
根據(jù)所述所有待處理音頻段之間的相似度分?jǐn)?shù),通過具有所述當(dāng)前聚類數(shù)的聚類算法獲取當(dāng)前聚類信息;
根據(jù)目標(biāo)說話人數(shù)從所述當(dāng)前聚類信息中獲取主類的標(biāo)簽;
對冗余類數(shù)所對應(yīng)中冗余類的每個(gè)元素計(jì)算其與主類的中心距離;從中獲取與所述主類中心距離最近的主類的類別標(biāo)簽作為此元素的類別標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911414495.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





