[發明專利]語音區分模型訓練方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201810561701.0 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN109065027B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 涂宏 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L25/30;G10L15/05 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 胡志桐 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 區分 模型 訓練 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種語音區分模型訓練方法,其特征在于,包括:
對雙向循環神經網絡模型的權值和偏置進行初始化處理,獲取原始雙向循環神經網絡模型;所述雙向循環神經網絡由向前循環神經網絡和向后循環神經網絡組成;
獲取待訓練語音數據,所述待訓練語音數據包括等比例配置的標準訓練語音數據和干擾訓練語音數據;
將所述標準訓練語音數據和所述干擾訓練語音數據輸入到原始雙向循環神經網絡模型中進行訓練,獲取模型輸出值和真實輸出值構建損失函數;基于所述損失函數,采用誤差反向傳播調整所述原始雙向循環神經網絡模型中向前循環神經網絡和向后循環神經網絡的權值和偏置,獲取原始語音區分模型;
獲取待測試語音數據,所述待測試語音數據包括等比例配置的標準測試語音數據和干擾測試語音數據;
將所述標準測試語音數據和干擾測試語音數據輸入到原始語音區分模型的隱藏層進行計算處理,通過所述原始語音區分模型的輸出層,獲取所述標準測試語音數據或者干擾測試語音數據對應的識別準確率,若所述識別準確率大于預設閾值,則所述原始語音區分模型確定為目標語音區分模型。
2.如權利要求1所述的語音區分模型訓練方法,其特征在于,所述將所述標準訓練語音數據和所述干擾訓練語音數據輸入到原始雙向循環神經網絡模型中進行訓練,獲取模型輸出值和真實輸出值構建損失函數;基于所述損失函數,采用誤差反向傳播調整所述原始雙向循環神經網絡模型中向前循環神經網絡和向后循環神經網絡的權值和偏置,獲取原始語音區分模型,包括:
采用ASR語音特征提取方法對所述標準訓練語音數據和所述干擾訓練語音數據進行特征提取,獲取標準ASR語音特征和干擾ASR語音特征;
將所述標準ASR語音特征和所述干擾ASR語音特征輸入到原始雙向循環神經網絡模型中進行訓練,調整所述原始雙向循環神經網絡模型中向前循環神經網絡和向后循環神經網絡的權值和偏置,獲取原始語音區分模型。
3.如權利要求2所述的語音區分模型訓練方法,其特征在于,所述采用ASR語音特征提取方法對所述標準訓練語音數據和所述干擾訓練語音數據進行特征提取,獲取標準ASR語音特征和干擾ASR語音特征,包括:
對所述標準訓練語音數據和所述干擾訓練語音數據分別進行快速傅里葉變換,獲取對應的標準功率譜和干擾功率譜;
采用梅爾濾波器組對所述標準功率譜和所述干擾功率譜分別進行降維處理,獲取標準梅爾頻譜和干擾梅爾頻譜;
對所述標準梅爾頻譜和所述干擾梅爾頻譜分別進行倒譜分析,獲取標準ASR語音特征和干擾ASR語音特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810561701.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種錄音控制方法及裝置
- 下一篇:說話人聚類方法、裝置、計算機設備及存儲介質





