[發明專利]一種重疊語音的檢測方法、裝置、電子設備及存儲介質有效
| 申請號: | 202210385565.0 | 申請日: | 2022-04-13 |
| 公開(公告)號: | CN114678037B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 萬同堂;鄧菁;鄭榕 | 申請(專利權)人: | 北京遠鑒信息技術有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/30;G10L25/18;G10L25/51 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 劉鳳 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 重疊 語音 檢測 方法 裝置 電子設備 存儲 介質 | ||
1.一種重疊語音的檢測方法,其特征在于,所述檢測方法包括:
獲取待檢測語音;
將所述待檢測語音輸入至預先訓練好的重疊語音檢測模型的特征提取網絡層,確定出所述待檢測語音的每一音頻段的幅度譜語音特征和相位譜語音特征;
將各個音頻段的所述幅度譜語音特征輸入至重疊語音檢測模型的第一殘差網絡層,確定出幅度重疊得分矩陣;以及將各個音頻段的所述相位譜語音特征輸入至重疊語音檢測模型的第二殘差網絡層,確定出相位重疊得分矩陣;其中,所述幅度重疊得分矩陣表征所述待檢測語音的每個音頻段在幅度維度上的重疊程度;所述相位重疊得分矩陣表征所述待檢測語音的每個音頻段在相位維度上的重疊程度;所述第一殘差網絡層和所述第二殘差網絡層均包括多頭注意力機制提取單元;
將所述幅度重疊得分矩陣和所述相位重疊得分矩陣輸入至重疊語音檢測模型的聚合網絡層進行聚合處理,確定所述待檢測語音中是否存在重疊語音,并在存在時,輸出重疊語音的起始時間和終止時間。
2.根據權利要求1所述的檢測方法,其特征在于,通過以下步驟訓練所述重疊語音檢測模型:
獲取多條非重疊樣本語音;
針對任意至少兩條所述非重疊樣本語音,對該至少兩條所述非重疊樣本語音進行重疊構造,確定出一條重疊樣本語音;其中,所述重疊樣本語音為該至少兩條所述非重疊樣本語音進行全部重疊構造或部分重疊構造生成的;
基于確定出的多條所述重疊樣本語音所攜帶的重疊語音標簽和多條非重疊樣本語音所攜帶的非重疊語音標簽對初始神經網絡模型進行訓練,確定出所述重疊語音檢測模型。
3.根據權利要求1所述的檢測方法,其特征在于,將各個音頻段的所述幅度譜語音特征輸入至重疊語音檢測模型的第一殘差網絡層,確定出幅度重疊得分矩陣,包括:
針對于每個所述音頻段的所述幅度譜語音特征,將所述幅度譜語音特征輸入至一維卷積單元,對所述幅度譜語音特征進行一維卷積處理,確定出幅度譜語音第一特征;
將所述幅度譜語音第一特征輸入至多尺度特征提取單元,對所述幅度譜語音第一特征在多尺度特征維度上進行非線性特征擬和,確定出幅度譜語音第二特征;
將所述幅度譜語音第二特征輸入至多頭注意力機制提取單元,對所述幅度譜語音第二特征進行加權平均值和加權標準差處理,確定出幅度譜語音第三特征;
將所述幅度譜語音第三特征輸入至降維單元,對所述幅度譜語音第三特征進行降維處理,確定出幅度譜語音第四特征;
將所述幅度譜語音第四特征輸入至分類單元,對所述幅度譜語音第四特征進行二分類處理,確定出幅度重疊得分向量;
基于各個所述音頻段的幅度重疊得分向量,確定所述幅度重疊得分矩陣;
其中,所述第一殘差網絡層包括所述一維卷積單元、所述多尺度特征提取單元、所述多頭注意力機制提取單元、所述降維單元以及所述分類單元。
4.根據權利要求1所述的檢測方法,其特征在于,通過以下步驟對所述幅度重疊得分矩陣和所述相位重疊得分矩陣進行聚合處理,確定所述待檢測語音中是否存在重疊語音:
對所述幅度重疊得分矩陣和所述相位重疊得分矩陣進行平均值計算,確定出平均值矩陣;
基于所述平均值矩陣,確定出所述待檢測語音中是否存在重疊語音。
5.根據權利要求1所述的檢測方法,其特征在于,通過以下步驟對所述幅度重疊得分矩陣和所述相位重疊得分矩陣進行聚合處理,確定所述待檢測語音中是否存在重疊語音:
基于所述幅度重疊得分矩陣、幅度重疊得分矩陣所對應的音頻段在幅度維度上的重疊程度標簽、相位重疊得分矩陣以及相位重疊得分矩陣所對應的音頻段在相位維度上的重疊程度標簽,確定出得分矩陣標簽數據集;
利用懲罰函數,對所述得分矩陣標簽數據集進行構造并求解凸二次規劃,確定出拉格朗日乘子的最優解序列;
在所述拉格朗日乘子的最優解序列中的任一個拉格朗日乘子的分量進行計算,確定出分類決策函數;
基于所述分類決策函數,確定所述待檢測語音中是否存在重疊語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京遠鑒信息技術有限公司,未經北京遠鑒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210385565.0/1.html,轉載請聲明來源鉆瓜專利網。





