[發明專利]語音處理模型的訓練方法、裝置、設備及存儲介質在審
| 申請號: | 202110595206.3 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113362810A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 陳霖捷;王健宗;黃章成 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518057 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 模型 訓練 方法 裝置 設備 存儲 介質 | ||
1.一種語音處理模型的訓練方法,其特征在于,包括:
獲取樣本數據,所述樣本數據包括源語種的語音和與所述源語種的語音對應的目標語種樣本文本;
將所述源語種的語音輸入語音處理模型的語音識別子模型,得到所述語音識別子模型輸出的源語種文本;
將所述源語種文本輸入所述語音處理模型的字詞數據庫中遍歷,得到所述源語種文本對應的詞向量;
將所述詞向量和所述源語種的語音對應的目標語種樣本文本輸入所述語音處理模型的機器翻譯子模型,得到所述機器翻譯子模型輸出的目標語種翻譯文本;
基于預設損失函數,根據所述目標語種翻譯文本和所述目標語種樣本文本計算所述語音處理模型的損失值;
根據所述損失值對語音處理模型進行參數調整,得到訓練好的語音處理模型。
2.如權利要求1所述的語音處理模型的訓練方法,其特征在于,所述機器翻譯子模型包括編碼器和解碼器;所述將所述詞向量和所述目標語種樣本文本輸入所述語音處理模型的機器翻譯子模型,得到所述機器翻譯子模型輸出的目標語種翻譯文本,包括:
將所述詞向量輸入所述編碼器進行權重計算,得到權重計算后的權重詞向量;
將所述權重詞向量和所述目標語種樣本文本輸入所述解碼器進行翻譯得到目標語種翻譯文本。
3.如權利要求2所述的語音處理模型的訓練方法,其特征在于,所述將所述權重詞向量和所述目標語種樣本文本輸入所述解碼器進行翻譯得到目標語種翻譯文本,包括:
將所述權重詞向量和所述目標語種樣本文本N個位置的樣本詞向量輸入所述解碼器進行翻譯,得到位于目標語種翻譯文本第N+1個位置的目標詞向量,其中,N為大于零且不大于所述權重詞向量的數量的正整數;
將預測得到的位于目標語種翻譯文本各個位置的目標詞向量進行拼接得到目標語種翻譯文本。
4.如權利要求3所述的語音處理模型的訓練方法,其特征在于,所述將所述權重詞向量和所述目標語種樣本文本N個位置的樣本詞向量輸入所述解碼器進行翻譯,得到位于目標語種翻譯文本第N+1個位置的目標詞向量,包括:
若N等于1,將所述權重詞向量和位于所述目標語種樣本文本第一個位置的樣本詞向量輸入所述解碼器進行翻譯,得到位于目標語種翻譯文本第二個位置的目標詞向量,以及將N加1;
若N大于1,將預測得到的目標語種翻譯文本N個位置的目標詞向量進行拼接,并將拼接后的目標詞向量、目標語種樣本文本N個位置的樣本詞向量以及權重詞向量輸入所述解碼器進行翻譯,得到位于目標語種翻譯文本的第N+1個位置的目標詞向量,以及若N不大于所述權重詞向量的數量時將N加1。
5.如權利要求1-4中任一項所述的語音處理模型的訓練方法,其特征在于,所述基于預設損失函數,根據所述目標語種翻譯文本和所述目標語種樣本文本計算損失值,包括:
通過下式損失函數計算得到損失值:
其中,wT為樣本詞向量對應的權重,yi為所述目標語種翻譯文本中的目標詞向量,Xi為所述目標語種樣本文本中的樣本詞向量,n為所述目標語種翻譯文本中目標詞向量的數量。
6.如權利要求1-4中任一項所述的語音處理模型的訓練方法,其特征在于,所述語音識別子模型包括:卷積層和時序分類層;所述將所述源語種的語音輸入語音處理模型的語音識別子模型,得到所述語音識別子模型輸出的源語種文本,包括:
將所述源語種的語音輸入所述卷積層進行特征提取處理,得到語音向量;
將所述語音向量輸入所述時序分類層進行轉換處理得到源語種文本。
7.如權利要求6所述的語音處理模型的訓練方法,其特征在于,所述將所述源語種文本輸入所述語音處理模型的字詞數據庫中遍歷,得到所述源語種文本對應的詞向量包括:
基于所述字詞數據庫的預設編碼規則,對所述源語種文本中的各個詞逐一進行映射編碼處理,得到所述源語種文本中各個詞對應的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110595206.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:大氣顆粒物的來源分析方法和相關設備
- 下一篇:識別模型訓練方法及裝置





