[發明專利]一種基于時間潛在域特定說話人信息的目標語音提取方法有效
| 申請號: | 202011376556.2 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112562706B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 蘭海燕;肖飛揚;柳友德;蘭宇晨;關鍵;田左;王愷瀚;謝明杰;蘆瑤;董喆 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0208;G10L25/03 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時間 潛在 特定 說話 信息 目標 語音 提取 方法 | ||
1.一種基于時間潛在域特定說話人信息的目標語音提取方法,其特征是,包括時間潛在域特征轉換模型、目標說話人特征信息指導器與增強提取模塊:
其中,時間潛在特征為音頻時序波形信號所對應的實數域特征,借助時間潛在域特征轉換模型實現從時序波形到時間潛在特征的轉換;潛在空間則是不同于傳統傅里葉變換復數域空間的高維實數域空間,包含了傅里葉時頻域信息缺失的相位信息,由時間潛在域特征轉換模型根據訓練數據分布與損失函數學習而來;
待處理的復雜聲學環境語音信息經過時間潛在域特征轉換模型的處理將映射到潛在空間的特征矩陣,此特征矩陣將分別進入目標說話人特征信息指導器與增強提取模塊;在目標說話人特征信息指導器中,特征矩陣將被判定為與某一特定的目標說話人時間潛在特征具有相關性,或者不包含目標說話人特征,判定得到的編碼特征會回傳到增強提取模塊;
當編碼特征表明特征矩陣與某一目標說話人相關時,增強提取模塊的計算過程將全程考慮到這一編碼信息,從而接收目標說話人特征信息指導器的指導功能——能高效提取出針對特定任務的目標說話人信息,而不受其他干擾信號的影響;而當編碼特征表明特征矩陣不包含目標說話人信息時,增強提取模塊將停止對目標信息的提取,并輸出“無目標信息的提示”,與此同時將原始語音進行“無目標信息指導”的語音增強處理。
2.根據權利要求1所述的基于時間潛在域特定說話人信息的目標語音提取方法,其特征是,所述時間潛在域特征轉換模型的損失計算借助語音信號信噪比計算實現,以信噪比作為損失函數,信噪比計算公式如下所示:
3.根據權利要求1所述的基于時間潛在域特定說話人信息的目標語音提取方法,其特征是,所述目標說話人特征信息指導器使用了注意力機制強化了對目標特有特征的關注程度,其編碼特征直接作用于后續增強過程時不考慮損失計算,直接與總體提取增強模塊共同訓練,而其目標預測功能通過已經成熟的交叉熵損失實現梯度更新過程:
其中i表示一批訓練數據中的某一組,而M表示總共支持的目標數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011376556.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于自適應BFO-PSO的衛星選擇方法
- 下一篇:一種位移及振動監測裝置





