[發明專利]一種基于語義注意力機制的多音字發音糾錯方法及裝置有效
| 申請號: | 202110266709.6 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112908293B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 陳晉音;葉林輝 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L13/08;G10L25/18;G10L25/30;G06F40/232;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 注意力 機制 多音字 發音 糾錯 方法 裝置 | ||
1.一種基于語義注意力機制的多音字發音糾錯方法,其特征在于,包括以下步驟:
獲取文本數據,并對文本數據進行編碼得到字嵌入向量矩陣;
構建包含編碼器、語義注意力機制單元和解碼器的語音合成模型并進行參數優化,其中,編碼器用于將輸入的字嵌入向量矩陣編碼成字嵌入特征矩陣,語義注意力機制單元用于將每個字嵌入向量按照各自權重拆分成疑問部分、關鍵部分以及價值部分這三部分后,針對由前后字組成的相鄰字組,以前字的疑問部分與后字的關鍵部分的乘積作為相鄰字組的得分后,將該得分與后字的價值部分的乘積作為相鄰字組的相關性,以組成關聯矩陣;解碼器對輸入的字嵌入向量矩陣和關聯矩陣進行解碼處理,輸出梅爾線性譜;
利用參數優化后的語義合成模型對文本數據進行語音合成,輸出梅爾線性譜,依據梅爾線性譜計算得到多音字發音糾錯的語音合成結果。
2.如權利要求1所述的基于語義注意力機制的多音字發音糾錯方法,其特征在于,所述編碼器包括至少1個卷積層和雙向長短時期記憶網絡,通過卷積層對輸入字嵌入向量的特征提取和雙向長短時期記憶網絡的特征關聯提取,輸出字嵌入特征。
3.如權利要求1所述的基于語義注意力機制的多音字發音糾錯方法,其特征在于,所述解碼器包含至少1個卷積層、雙向長短時期記憶網絡以及線性預測層,其中,雙向長短時期記憶網絡對當前時刻輸入的字嵌入特征和相關性與前一時刻的線性預測結果經過至少1個卷積層的卷積結果進行融合特征提取,得到的融合特征經過線性預測層得到線性預測結果,該線性預測結果經過卷積層操作后的結果與原線性預測結果融合后輸出梅爾線性譜。
4.如權利要求1所述的基于語義注意力機制的多音字發音糾錯方法,其特征在于,在對語音合成模型進行參數優化時,以語音合成模型輸出的預測梅爾線性譜與真實梅爾線性普之間的均方誤差作為損失函數,來優化語音合成模型的所有權重參數和偏置參數。
5.如權利要求1所述的基于語義注意力機制的多音字發音糾錯方法,其特征在于,在對語音合成模型行參數優化前,需要構建包含多音字的文本數據集,通過手動錄制音頻的方式為文本數據集添加多音字音頻,以構建文本的真實梅爾線性譜。
6.如權利要求1所述的基于語義注意力機制的多音字發音糾錯方法,其特征在于,采用one-hot編碼或bert-serving-server包將文本數據進行編碼得到字嵌入向量矩陣。
7.一種基于語義注意力機制的多音字發音糾錯裝置,包括計算機存儲器、計算機處理器以及存儲在所述計算機存儲器中并可在所述計算機處理器上執行的計算機程序,其特征在于,所述計算機存儲器中還存儲有參數優化后的語音合成模型,所述語音合成模型通過權利要求1~6任一項所述的基于語義注意力機制的多音字發音糾錯方法構建,所述計算機處理器執行計算機程序時實現以下步驟:
獲取文本數據,并對文本數據進行編碼得到字嵌入向量矩陣;
利用語音合成模型對輸入的字嵌入向量矩陣進行處理,獲得梅爾線性譜;
依據梅爾線性譜計算得到多音字發音糾錯的語音合成結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266709.6/1.html,轉載請聲明來源鉆瓜專利網。





