[發明專利]語音處理模型的訓練方法、裝置、設備及存儲介質在審
| 申請號: | 202110595206.3 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113362810A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 陳霖捷;王健宗;黃章成 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518057 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本申請提供一種語音處理模型的訓練方法、裝置、設備及計算機可讀存儲介質,該方法包括:獲取樣本數據,樣本數據包括源語種的語音和與源語種的語音對應的目標語種樣本文本;將源語種的語音輸入語音處理模型的語音識別子模型,得到源語種文本;將源語種文本輸入語音處理模型的字詞數據庫中遍歷,得到源語種文本對應的詞向量;將詞向量和目標語種樣本文本輸入語音處理模型的機器翻譯子模型,得到目標語種翻譯文本;基于預設損失函數,根據目標語種翻譯文本和目標語種樣本文本計算語音處理模型的損失值;根據損失值對語音處理模型進行參數調整,得到訓練好的語音處理模型。可以減少模型的訓練數據,提高訓練效率。本申請還涉及區塊鏈技術。
技術領域
本申請涉及計算機技術領域,尤其涉及一種語音處理模型的訓練方法、裝置、設備及計算機可讀存儲介質。
背景技術
目前,語音翻譯技術多數先通過ASR對語音進行文本轉錄,再通過機器翻譯將轉錄后的文本翻譯為所需要的目標文本,需要經過自動語音識別(ASR)模型轉錄以及神經機器翻譯(NMT)模型翻譯,在對上述模型進行訓練時,需要大量的數據,訓練的效率不高,且自動語音識別(ASR)模型的轉錄效果不夠精確的情況下,經翻譯處理后輸出的結果會產生更大的誤差,從而得到的從語音到文本的翻譯結果不符合預期。
發明內容
本申請的主要目的在于提供一種語音處理模型的訓練方法、裝置、設備及計算機可讀存儲介質,旨在提高語音處理模型的訓練效率和準確性,訓練好的語音處理模型能夠降低翻譯文本輸出的時延性以及得到更精準的翻譯文本。
第一方面,本申請提供一種語音處理模型的訓練方法,所述語音處理模型的訓練方法包括以下步驟:獲取樣本數據,所述樣本數據包括源語種的語音和與所述源語種的語音對應的目標語種樣本文本;
將所述源語種的語音輸入語音處理模型的語音識別子模型,得到所述語音識別子模型輸出的源語種文本;
將所述源語種文本輸入所述語音處理模型的字詞數據庫中遍歷,得到所述源語種文本對應的詞向量;
將所述詞向量和所述源語種的語音對應的目標語種樣本文本輸入所述語音處理模型的機器翻譯子模型,得到所述機器翻譯子模型輸出的目標語種翻譯文本;
基于預設損失函數,根據所述目標語種翻譯文本和所述目標語種樣本文本計算所述語音處理模型的損失值;
根據所述損失值對語音處理模型進行參數調整,得到訓練好的語音處理模型。
第二方面,本申請還提供一種語音處理模型的訓練裝置,所述語音處理模型的訓練裝置包括:
數據獲取模塊,用于獲取樣本數據,所述樣本數據包括源語種的語音和與所述源語種的語音對應的目標語種樣本文本;
語音識別模塊,用于將所述源語種的語音輸入語音處理模型的語音識別子模型,得到所述語音識別子模型輸出的源語種文本;
文本遍歷模塊,用于將所述源語種文本輸入所述語音處理模型的字詞數據庫中遍歷,得到所述源語種文本對應的詞向量;
文本翻譯模塊,用于將所述詞向量和所述源語種的語音對應的目標語種樣本文本輸入所述語音處理模型的機器翻譯子模型,得到所述機器翻譯子模型輸出的目標語種翻譯文本;
損失計算模塊,用于基于預設損失函數,根據所述目標語種翻譯文本和所述目標語種樣本文本計算所述語音處理模型的損失值;
參數調整模塊,用于根據所述損失值對語音處理模型進行參數調整,得到訓練好的語音處理模型。
第三方面,本申請還提供一種計算機設備,所述計算機設備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執行的計算機程序,其中所述計算機程序被所述處理器執行時,實現如上述的語音處理模型的訓練方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110595206.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:大氣顆粒物的來源分析方法和相關設備
- 下一篇:識別模型訓練方法及裝置





