[發明專利]一種基于拼音的雙階段解耦合中文語音識別模型在審
| 申請號: | 202210410441.3 | 申請日: | 2022-04-19 |
| 公開(公告)號: | CN114743544A | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 陳力軍;劉佳;林華健;陳星宇;鄢偉 | 申請(專利權)人: | 南京大學;江蘇圖客機器人有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L25/03 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210008 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 拼音 階段 耦合 中文 語音 識別 模型 | ||
1.一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,包括如下步驟:
步驟1,從中文語音數據集獲取音頻數據并進行預處理,得到語音數據訓練集、驗證集和測試集;構建基于拼音的雙階段解耦合中文語音識別模型,包括聲學模型和語言模型;
步驟2,對所得語音數據訓練集的Mel譜特征做動態數據增強,包括時間掩蔽和頻率掩蔽;
步驟3,將動態數據增強后的Mel譜特征送入聲學模型,進行聲學模型訓練,得到聯結時序分類損失,優化聲學模型參數;重復步驟2和步驟3所述的動態數據增強和聲學模型訓練過程,直到聲學模型收斂;
步驟4,進行聲學模型性能評估;
步驟5,從中文文本數據集獲取文本數據并進行預處理;
步驟6,根據步驟5中預處理后的文本數據建立拼音詞典、漢字詞典和同音字詞典,得到包括中文文本的文本數據訓練集;
步驟7,將所得文本數據訓練集中中文文本對應的拼音序列以及同音字序列送入語言模型,進行語言模型訓練,得到交叉熵損失,優化語言模型參數;重復步驟7所述的的語言模型訓練過程,直到語言模型收斂;
步驟8,進行語言模型性能評估和基于拼音的雙階段解耦合中文語音識別模型的聯合評估。
2.根據權利要求1所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟1中所述數據預處理包括:
將所有音頻數據以統一的采樣率進行重采樣;對音頻數據進行預加重、分幀和加窗得到有重疊的分幀信號;對分幀信號進行短時傅里葉變換得到短時幅度譜;通過Mel濾波器組得到Mel譜特征數據;將所得Mel譜特征數據劃分為不相交的訓練集、驗證集和測試集。
3.根據權利要求2中所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟2中對所得語音數據訓練集的Mel譜特征做動態數據增強過程中,對時間掩蔽和頻率掩蔽的掩蔽比例為隨機數。
4.根據權利要求3中所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟3中,所述聲學模型由混合下采樣模塊、多路徑交叉卷積模塊和多層前饋神經網絡組成;
其中,混合下采樣模塊使用多路徑融合使用最大池化和均勻池化,減少下采樣過程中有用信息的丟失;多路徑交叉卷積模塊包含兩個相同的分組,其中每個分組由多路不同分辨率的二維卷積級聯而得,提取不同感受野下的低層特征,多路徑交叉卷積模塊內部還使用了密集連接的殘差結構;多層前饋神經網絡將輸入的高級特征映射到拼音的維度空間,并使用softmax函數獲得概率分布。
5.根據權利要求4中所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟4中所述聲學模型性能評估,包括:測試集字符識別錯誤率和推理延遲;其中,字符識別錯誤率CER通過動態字符串對齊計算得到,方法如下:
其中,S表示對齊過程中產生的替換次數,D表示刪除次數,I表示插入次數,N表示目標句子中的字符數。
6.根據權利要求5中所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟5中所述中文文本數據集為現存的數據集或收集整理得到的中文文本;所述預處理包括:
復句分割為多個單句、數字轉漢字、繁體轉簡體、去除句末標點符號以及去除包含非漢字字符的句子,得到僅包含簡體漢字的句子;將所得句子劃分為不相交的訓練集、驗證集,同時去除與最終測試所用數據集中重疊的句子。
7.根據權利要求6中所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟6中所述詞典以python字典格式存儲;其中,拼音詞典以拼音為鍵,以遞增索引為值;漢字詞典以漢字為鍵,以遞增索引為值;同音字詞典以拼音為鍵,以子詞典為值,該子字典的鍵為同拼音的漢字,值為遞增索引。
8.根據權利要求7中所述的一種基于拼音的雙階段解耦合中文語音識別模型,其特征在于,步驟7中所述語言模型為基于同音字建模的Transformer模型,將拼音到漢字的轉錄過程作為一對一的翻譯過程,并將翻譯結果限制在輸入拼音對應的同音字空間中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學;江蘇圖客機器人有限公司,未經南京大學;江蘇圖客機器人有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210410441.3/1.html,轉載請聲明來源鉆瓜專利網。





