[發明專利]一種重疊語音的檢測方法、裝置、電子設備及存儲介質有效
| 申請號: | 202210385565.0 | 申請日: | 2022-04-13 |
| 公開(公告)號: | CN114678037B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 萬同堂;鄧菁;鄭榕 | 申請(專利權)人: | 北京遠鑒信息技術有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/30;G10L25/18;G10L25/51 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 劉鳳 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 重疊 語音 檢測 方法 裝置 電子設備 存儲 介質 | ||
本申請提供了一種重疊語音的檢測方法、裝置、電子設備及存儲介質,包括:將待檢測語音輸入特征提取網絡層,確定出待檢測語音的每一音頻段的幅度譜語音特征和相位譜語音特征;將各個音頻段的幅度譜語音特征輸入第一殘差網絡層,確定出幅度重疊得分矩陣;以及將各個音頻段的相位譜語音特征輸入第二殘差網絡層,確定出相位重疊得分矩陣;將幅度重疊得分矩陣和幅度重疊得分矩陣輸入聚合網絡層進行聚合處理,確定待檢測語音中是否存在重疊語音,并在存在時,輸出重疊語音的起始時間和終止時間。通過將待檢測語音輸入到重疊語音檢測模型中,將幅度重疊得分矩陣、相位重疊得分矩陣進行聚合處理,從而可以提高對重疊語音識別的準確率。
技術領域
本申請涉及語音檢測技術領域,尤其是涉及一種重疊語音的檢測方法、裝置、電子設備及存儲介質。
背景技術
語音重疊檢測是指在一段連續的多人說話的語音中檢出多人同時說話的起始時間和結束時間。隨著人工智能技術的發展,對于語音重疊算法的精度要求越來越高,因為在智能音箱、助聽器、會議記錄等應用設備中,麥克風接收到的語音信號常常伴隨著背景噪音或者其他說話人聲的干擾,若是不能準確地確定出重疊語音,將會嚴重影響到后端的應用,出現目標語音不清晰、語義識別不準或記錄不準確的問題。
現階段,一般采用基于無監督聚類的語音重疊算法進行確定,但是這種方法在面對大數據量語音文件時會導致更容易受到噪聲信息的干擾,導致最終重疊語音確定的準確率降低。所以,如何快速準確的確定出重疊語音成為了亟需解決的問題。
發明內容
有鑒于此,本申請的目的在于提供一種重疊語音的檢測方法、裝置、電子設備及存儲介質,從而提高對重疊語音識別的準確率。
本申請實施例提供了一種重疊語音的檢測方法,所述檢測方法包括:
獲取待檢測語音;
將所述待檢測語音輸入至預先訓練好的重疊語音檢測模型的特征提取網絡層,確定出所述待檢測語音的每一音頻段的幅度譜語音特征和相位譜語音特征;
將各個音頻段的所述幅度譜語音特征輸入至重疊語音檢測模型的第一殘差網絡層,確定出幅度重疊得分矩陣;以及將各個音頻段的所述相位譜語音特征輸入至重疊語音檢測模型的第二殘差網絡層,確定出相位重疊得分矩陣;其中,所述幅度重疊得分矩陣表征所述待檢測語音的每個音頻段在幅度維度上的重疊程度;所述相位重疊得分矩陣表征所述待檢測語音的每個音頻段在相位維度上的重疊程度;所述第一殘差網絡層和所述第二殘差網絡層均包括多頭注意力機制提取單元;
將所述幅度重疊得分矩陣和所述幅度重疊得分矩陣輸入至重疊語音檢測模型的聚合網絡層進行聚合處理,確定所述待檢測語音中是否存在重疊語音,并在存在時,輸出重疊語音的起始時間和終止時間。
在一種可能的實施方式中,通過以下步驟訓練所述重疊語音檢測模型:
獲取多條非重疊樣本語音;
針對任意至少兩條所述非重疊樣本語音,對該至少兩條所述非重疊樣本語音進行重疊構造,確定出一條重疊樣本語音;其中,所述重疊樣本語音為該至少兩條所述非重疊樣本語音進行全部重疊構造或部分重疊構造生成的;
基于確定出的多條所述重疊樣本語音所攜帶的重疊語音標簽和多條非重疊樣本語音所攜帶的非重疊語音標簽對初始神經網絡模型進行訓練,確定出所述重疊語音檢測模型。
在一種可能的實施方式中,將各個音頻段的所述幅度譜語音特征輸入至重疊語音檢測模型的第一殘差網絡層,確定出幅度重疊得分矩陣,包括:
針對于每個所述音頻段的所述幅度譜語音特征,將所述幅度譜語音特征輸入至一維卷積單元,對所述幅度譜語音特征進行一維卷積處理,確定出幅度譜語音第一特征;
將所述幅度譜語音第一特征輸入至多尺度特征提取單元,對所述幅度譜語音第一特征在多尺度特征維度上進行非線性特征擬和,確定出幅度譜語音第二特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京遠鑒信息技術有限公司,未經北京遠鑒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210385565.0/2.html,轉載請聲明來源鉆瓜專利網。





