[發明專利]復雜環境中多人語音的分割聚類方法及系統有效
| 申請號: | 201911414495.1 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111063341B | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 黃厚軍;項煦;錢彥旻 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/08;G10L15/26;G10L17/02;G10L17/14;G10L17/22 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 復雜 環境 人語 分割 方法 系統 | ||
本發明公開一種復雜環境中多人語音的分割聚類方法及系統,方法包括:根據多人說話音頻獲取多段連續的多人說話語音片段音頻。根據聲學特征對多人說話語音片段音頻歸一化獲取歸一化音頻。獲取多段待處理音頻。提取多段待處理音頻的聲紋信息特征。對所有待處理音頻段之間通過設定打分準則獲取打分數。根據所有待處理音頻段之間的相似度分數,通過多階段冗余聚類算法獲取多個人的類別標簽。根據多個人的類別標簽對多人說話音頻分割聚類。使用冗余聚類方法可以提升目標說話人的聚類的中心更加分散,區分度更強。對于復雜環境下,目標說話人不清晰的語音片段,也有更好的判別能力,從而降低復雜環境下分割聚類任務中的說話人分類的分類錯誤。
技術領域
本發明屬于語音處理技術領域,尤其涉及復雜環境中多人語音識別方法及系統。
背景技術
相關技術中,說話人分割聚類方案沒有對復雜環境下分割聚類任務做特定的優化。應對復雜環境的方法通常是通過語音檢測(Voice Activity detection)模塊對特定的語音片段作過濾,以期過濾后的語音片為純凈的人聲片段,以保證后期的聚類準確率。
現有的說話人分割聚類系統,靠語音檢測過濾應對復雜場景的分割聚類任務有一下缺點。首先語音檢測(VAD)很難在有背景音為人聲情況下,準確識別目標說話人發聲的起始點。這樣就容易將背景人聲也標記為目標說話人,參與后期的聚類中。其次,在復雜環境中,會有多個說話人同時講話的情況,此時同一個時間片段中有多個說話人,如果有較多這樣含有多個說話人的片段參與后期的聚類中,會影響聚類的準確度。
發明人在實現本申請的過程中發現:首先,現有的語音檢測(VAD)技術還不能很好的應對背景音是非目標說話人的情況。其次,缺少對特殊語音片段(含有人聲背景音,同一段語音中含有多個說話人)的建模,不對特殊的語音片段進行處理,會使聚類的準確度降低。
業內同行通常只能想到以下的這樣一些做法是:通過提升語音檢測(VAD)模塊的性能來過濾音頻段中非目標人聲的片段。這種方法雖然可以使音頻中非目標人聲的部分得到清洗,但是過濾的性能完全取決于過濾器的閥值。不同環境下閥值不同,選擇一個合適的閥值仔細需要調整,對過濾器的要求高。
或是,提高音頻段特征表征的能力,即使用更有效的表征模型對音頻片段提取特征,用于后期的聚類。目前基于深度神經網路的特征提取器的表征能力最強,但是通常對訓練的數據要求較高。但是也不能直接有效解決同一個音頻片段中有多個說話人的情況。
由此可知,目前市面上還未見到可以在針對復雜環境下說話人分割聚類任務優化的技術解決方案。
發明內容
本發明實施例提供一種復雜環境中多人語音的分割聚類方法及系統,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種復雜環境中多人語音的分割聚類方法,包括:
步驟S101,根據多人說話音頻獲取多段連續的多人說話語音片段音頻。多人說話音頻中或多人說話音頻片段音頻中具有多個人的語音音頻。
步驟S102,從人聲語音片段音頻中提取聲學特征。根據聲學特征對多人說話語音片段音頻歸一化獲取歸一化音頻。
步驟S103,根據設定分割片段時長分割歸一化音頻,獲取多段待處理音頻。
步驟S104,提取多段待處理音頻的聲紋信息特征。
步驟S105,根據多段待處理音頻的聲紋信息特征,對所有待處理音頻段之間通過設定打分準則獲取打分數。根據打分數獲取。所有待處理音頻段之間的相似度分數。
步驟S106,根據所有待處理音頻段之間的相似度分數,通過多階段冗余聚類算法獲取多個人的類別標簽。
步驟S107,根據多個人的類別標簽對多人說話音頻分割聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911414495.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車儀表盤指針顯示控制系統和方法
- 下一篇:一種帶動平衡機構的壓力機





