[發明專利]語音關鍵詞檢測模型處理方法、裝置及計算機設備在審
| 申請號: | 202110758671.4 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113421554A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 李澤遠;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L13/08;G10L13/02 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 關鍵詞 檢測 模型 處理 方法 裝置 計算機 設備 | ||
1.一種語音關鍵詞檢測模型處理方法,其特征在于,包括下述步驟:
獲取包含關鍵詞的初始文本、預先存儲的語音聲紋表征以及包含關鍵詞的真實語音;
根據所述語音聲紋表征和所述初始文本,合成與所述初始文本相對應的合成語音;
將所述真實語音和所述合成語音設置為初始待混合語音,并對所述初始待混合語音進行聲學特征調整,得到待混合語音;
對所述待混合語音進行混合增強,得到訓練語音;
根據所述訓練語音對初始語音關鍵詞建模型進行訓練,得到語音關鍵詞檢測模型。
2.根據權利要求1所述的語音關鍵詞檢測模型處理方法,其特征在于,在所述獲取包含關鍵詞的初始文本、預先存儲的語音聲紋表征以及包含關鍵詞的真實語音的步驟之前,還包括:
獲取真實錄制語音;
從所述真實錄制語音中提取語音聲紋表征,所述語音聲紋表征包括基頻、非周期性特征和梅爾頻率倒譜系數。
3.根據權利要求1所述的語音關鍵詞檢測模型處理方法,其特征在于,所述根據所述語音聲紋表征和所述初始文本,合成與所述初始文本相對應的合成語音的步驟包括:
將所述初始文本輸入編碼器,得到所述初始文本的文本嵌入數據;
將所述語音聲紋表征與所述文本嵌入數據進行合并,得到合成輸入參數;
將所述合成輸入參數輸入經過訓練的語音合成模型,以通過所述語音合成模型合成與所述初始文本相對應的合成語音。
4.根據權利要求1所述的語音關鍵詞檢測模型處理方法,其特征在于,所述將所述真實語音和所述合成語音設置為初始待混合語音,并對所述初始待混合語音進行聲學特征調整,得到待混合語音的步驟包括:
將所述真實語音和所述合成語音設置為初始待混合語音;
對于每條初始待混合語音,隨機確定初始待混合語音的聲學特征調整方式,所述聲學特征調整方式包括特征調整維度和特征調整幅度;
根據確定的聲學特征調整方式對所述初始待混合語音進行聲學特征調整,得到待混合語音。
5.根據權利要求1所述的語音關鍵詞檢測模型處理方法,其特征在于,所述對所述待混合語音進行混合增強,得到訓練語音的步驟包括:
對得到的待混合語音進行組合,得到待混合語音對;
對于每組待混合語音對,從預設的貝塔分布中獲取待混合語音對的融合比例;
根據所述融合比例對所述待混合語音對中的待混合語音進行線性插值混合,得到訓練語音。
6.根據權利要求5所述的語音關鍵詞檢測模型處理方法,其特征在于,所述對得到的待混合語音進行組合,得到待混合語音對的步驟包括:
對得到的待混合語音進行隨機組合,得到初始待混合語音對;
對于每組初始待混合語音對,獲取待混合語音對中各待混合語音的內容標簽;
當獲取到的內容標簽相同時,將所述初始待混合語音對確定為待混合語音對。
7.根據權利要求1所述的語音關鍵詞檢測模型處理方法,其特征在于,在所述根據所述訓練語音對初始語音關鍵詞建模型進行訓練,得到語音關鍵詞檢測模型的步驟之后,還包括:
獲取終端發送的待檢測語音;
將所述待檢測語音輸入所述語音關鍵詞建模型,得到所述待檢測語音中的關鍵詞信息;
生成與所述關鍵詞信息對應的響應指令;
將所述響應指令發送至所述終端,以指示所述終端根據所述響應指令對所述待檢測語音進行響應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110758671.4/1.html,轉載請聲明來源鉆瓜專利網。





