[發明專利]消歧方法、消歧模型的訓練方法及裝置有效
| 申請號: | 202111493472.1 | 申請日: | 2021-12-08 |
| 公開(公告)號: | CN114417832B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 喬宏利;王洪斌;劉敏 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/216;G06F40/289;G06F18/241;G06N3/0442;G06N3/08;G10L13/047;G10L13/08;G10L13/10;G10L25/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 404100 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 模型 訓練 裝置 | ||
本申請公開一種消歧方法、消歧模型的訓練方法及裝置。該方法包括:獲取目標文本;獲取目標文本的編碼;對目標文本的編碼進行處理,得到多個分類項分別對應的第一概率;基于掩碼張量對多個分類項分別對應的第一概率進行掩碼處理,得到多個分類項分別對應的第二概率;多個分類項中目標對象正確讀音對應的第二概率大于目標對象正確讀音對應的第一概率,多個分類項中目標對象錯誤讀音對應的第二概率小于目標對象錯誤讀音對應的第一概率。通過上述掩碼操作,能排除多個分類項中針對目標對象的明顯錯誤讀音,縮小目標對象的預測范圍,進而提高預測準確率。
技術領域
本申請涉及深度學習技術領域,更具體地,涉及一種消歧方法、消歧模型的訓練方法及裝置。
背景技術
從文本到語音(Text?To?Speech,TTS)技術廣泛應用于語音助手、智能音箱、地圖導航、智能客服等等領域。基于TTS技術的TTS模型的使用過程如下:將文本的音素序列輸入TTS模型,由TTS模型輸出該文本對應的語音。
漢語中存在眾多多音字,給文本轉音素帶來困難,在文本轉音素出現錯誤的情況下,TTS模型輸出的語音也發生錯誤。
發明內容
本申請提供一種消歧方法、消歧模型的訓練方法及裝置。
第一方面,本申請實施例提供一種多音字預測方法,該方法包括:獲取目標文本,目標文本包括至少一個目標對象;目標對象具有多個讀音;獲取目標文本的編碼;對目標文本的編碼進行處理,得到多個分類項分別對應的第一概率,分類項對應的第一概率表征預測出的目標對象的讀音為分類項的概率;基于掩碼張量對多個分類項分別對應的第一概率進行掩碼處理,得到多個分類項分別對應的第二概率;多個分類項分別對應的第二概率用于確定多音字的預測結果;多個分類項中目標對象正確讀音對應的第二概率大于目標對象正確讀音對應的第一概率,多個分類項中目標對象錯誤讀音對應的第二概率小于目標對象錯誤讀音對應的第一概率。
第二方面,本申請實施例提供一種消歧模型的訓練方法,方法包括:獲取多個訓練文本,多個訓練文本中的每個訓練文本包括訓練對象,訓練對象標注有正確讀音;針對每一訓練文本,通過初始模型對訓練文本進行處理,輸出訓練文本中訓練對象的預測讀音;從初始模型中的掩碼模塊獲取掩碼估計值,基于掩碼估計值和掩碼真值獲取第一損失;通過預測讀音與訓練文本中訓練對象的正確讀音獲取第二損失;通過第一損失和第二損失對初始模型的參數進行迭代,得到消歧模型。
第三方面,本申請還提供一種多音字預測裝置,該裝置包括:文本獲取模塊,用于獲取目標文本,目標文本包括至少一個目標對象,目標對象具有多個讀音;編碼獲取模塊,用于獲取目標文本的編碼;預測模塊,用于對目標文本的編碼進行處理,得到多個分類項分別對應的第一概率,分類項對應的第一概率表征預測出的目標對象的讀音為分類項的概率;掩碼模塊,用于基于掩碼張量對多個分類項分別對應的第一概率進行掩碼處理,得到多個分類項分別對應的第二概率;多個分類項分別對應的第二概率用于確定多音字的預測結果;多個分類項中目標對象正確讀音對應的第二概率大于目標對象正確讀音對應的第一概率,多個分類項中目標對象錯誤讀音對應的第二概率小于目標對象錯誤讀音對應的第一概率。
第四方面,本申請實施例提供一種消歧模型的訓練裝置,裝置包括:文本獲取模塊,用于獲取多個訓練文本,多個訓練文本中的每個訓練文本包括訓練對象,訓練對象標注有正確讀音;預測模塊,用于針對每一訓練文本,通過初始模型對訓練文本進行處理,輸出訓練文本中訓練對象的預測讀音;第一損失計算模塊,用于從初始模型中的掩碼模塊獲取掩碼估計值,基于掩碼估計值和掩碼真值獲取第一損失;第二損失計算模塊,用于通過預測讀音與訓練文本中訓練對象的正確讀音獲取第二損失;迭代模塊,用于通過第一損失和第二損失對初始模型的參數進行迭代,得到消歧模型。
第五方面,本申請還提供一種電子設備,該電子設備包括處理器以及存儲器,存儲器存儲有計算機程序指令,計算機程序指令被處理器調用時執行上述的消歧方法,或者,消歧模型的訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111493472.1/2.html,轉載請聲明來源鉆瓜專利網。





