[發明專利]一種語音話者分離方法和裝置有效
| 申請號: | 202010131005.3 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111429935B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 汪法兵;李健;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/028;G10L21/0308;G10L21/0208 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 分離 方法 裝置 | ||
本發明提供了一種語音話者分離方法和裝置,涉及語音識別技術領域。本發明實施例中,在對語音片段聚類之前,通過預先設置的預設噪音過濾參數對語音片段進行過濾,由于瞬態噪聲與話者語音之間有著明顯的不同,因此,可以通過合適的預設噪音過濾參數將大部分瞬態噪聲過濾,保證第一語音集合中大部分為不同話者的語音片段,從而提升了后續第一語音特征提取以及語音片段聚類的準確性,正確分離不同話者語音,提升了語音話者分離技術的魯棒性。
技術領域
本發明涉及語音識別技術領域,特別是涉及一種語音話者分離方法和裝置。
背景技術
在通話、語音識別、聲紋識別等場景中,通常需要區分不同語音輸入對應的話者身份,或在輸入的多人語音中僅接收某個特定說話人的語音。因此,在實際應用中,當輸入的是多人語音時,就需要通過話者分離技術分離不同說話人的語音。
當輸入的音頻信噪比較高時,可以通過對語音特定長度分段、逐段特征提取、依據特征聚類的方式分離不同話者的語音。但是,當輸入的音頻信噪比低、背景干擾噪聲如鍵盤敲擊聲、開關門聲、風聲較多時,會影響語音特征提取的結果,從而嚴重干擾語音聚類的準確性,降低話者分離的魯棒性。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種語音話者分離方法和裝置。
依據本發明的第一方面,提供了一種語音話者分離方法,該方法包括:
獲取待處理的音頻數據;
根據靜音期對所述音頻數據進行分段處理,獲得至少一個語音片段;
將符合預設噪聲過濾參數的語音片段歸為第一語音集合;
提取所述第一語音集合中的語音片段的第一語音特征;
根據所述第一語音特征對所述第一語音集合中的語音片段進行聚類,得到聚類結果;
根據所述聚類結果,分離所述第一語音集合中不同話者的語音片段。
依據本發明的第二方面,提供了一種語音話者分離裝置,所述裝置包括:
數據獲取模塊,用于獲取待處理的音頻數據;
數據分段模塊,用于根據靜音期對所述音頻數據進行分段處理,獲得至少一個語音片段;
參數過濾模塊,用于將符合預設噪聲過濾參數的語音片段歸為第一語音集合;
特征提取模塊,用于提取所述第一語音集合中的語音片段的第一語音特征;
數據聚類模塊,用于根據所述第一語音特征對所述第一語音集合中的語音片段進行聚類,得到聚類結果;
語音分離模塊,用于根據所述聚類結果,分離所述第一語音集合中不同話者的語音片段。
本發明實施例中,在對語音片段聚類之前,通過預先設置的預設噪音過濾參數對語音片段進行過濾,由于瞬態噪聲與話者語音之間有著明顯的不同,因此,可以通過合適的預設噪音過濾參數將大部分瞬態噪聲過濾,保證第一語音集合中大部分為不同話者的語音片段,從而提升了后續第一語音特征提取以及語音片段聚類的準確性,正確分離不同話者語音,提升了語音話者分離技術的魯棒性。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010131005.3/2.html,轉載請聲明來源鉆瓜專利網。





