[發明專利]基于卷積神經網絡和注意力機制的佤語孤立詞匯識別方法在審
| 申請號: | 202211209083.6 | 申請日: | 2022-09-30 |
| 公開(公告)號: | CN115294973A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 王俊;劉金生;吳迪;陳懇;甘健侯;周菊香 | 申請(專利權)人: | 云南師范大學 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L25/30;G06N3/08;G06N3/04 |
| 代理公司: | 昆明明潤知識產權代理事務所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650500 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 注意力 機制 孤立 詞匯 識別 方法 | ||
本發明涉及基于卷積神經網絡和注意力機制的佤語孤立詞匯識別方法,屬于語音識別領域。本發明對收集的原始佤語孤立詞匯語音進行預處理并提取Fbank音頻特征,然后使用卷積網絡提取音頻的深度特征信息,再輸入到BiLSTM中充分學習音頻序列在時間維度上的上下文信息,最后將BiLSTM層的輸出特征輸入到注意力層計算目標損失并輸出結果,實現對佤語孤立詞匯語音到中文詞匯的建模,解決識別佤語孤立詞匯識別率低的問題。本發明使用的網絡結構簡潔,在本方法所構建的數據集上可以達到88%的識別準確率。
技術領域
本發明涉及基于卷積神經網絡和注意力機制的佤語孤立詞匯識別方法,屬于語音識別技術領域。
背景技術
少數民族語言是少數民族文化的重要組成部分,是一個民族存在的象征,而保護少數民族語言是保護和傳承少數民族文化的一項重要措施。如今,不斷發展的語音識別技術給保護這些少數民族語言提供了一項重要的技術手段。目前對于主流的語言,其語料數據豐富,訓練出的傳統語音識別模型準確率已經很高,但是對于低資源語音的語音識別研究工作相對較少,而佤語作為一種低資源語言,相關的研究工作更少。佤語識別存在的主要問題為低資源語言的語音語料太少,而且訓練使用的佤語語料是孤立的佤語詞匯語音,語音時長較短,不適合使用傳統的大型語音識別模型,模型復雜不易優化,識別佤語的性能偏低。本發明涉及一種適合識別低資源佤語孤立詞匯的語音識別方法,方法模型簡潔且語音識別準確率高,這對佤語語言的保護提供了一項技術手段,具有重要的意義,同時也可以為保護其他少數民族語言提供思路和幫助。
發明內容
本發明要解決的技術問題是提供基于卷積神經網絡和注意力機制的佤語孤立詞匯識別方法,用以解決低資源語言佤語孤立詞識別率低的問題。
本發明的技術方案是:基于卷積神經網絡和注意力機制的佤語孤立詞匯識別方法,將原始佤語詞匯語音經過預處理得到Fbank音頻特征,利用卷積神經網絡進一步提取音頻的深度特征,利用BiLSTM關注音頻序列在時間序列上的上下文信息,最后將BiLSTM輸出特征輸入到Attention層進行解碼,輸出預測文本結果并計算目標損失,進行多次訓練,優化模型參數,得到識別佤語孤立詞匯準確率高的語音識別模型進行識別。
具體步驟為:
Step 1:將原始佤語詞匯語音經過預處理得到Fbank音頻特征;
Step 1.1:使用專業錄音設備對當地多位佤族人進行常用佤語詞匯語音采集,其中發音人包括不同年齡段并且分男女,有小學生、成年人和老年人,以此來豐富佤語孤立詞匯語音語料庫,大約收集到68000條語音數據,在進行模型訓練時并按照3:1:1的比例劃分訓練集、測試集、驗證集;
Step 1.2:對Step 1.1中采集的佤語孤立詞匯語音進行預處理:首先對語音信號進行預加重處理,對高頻部分進行加重,以此凸顯高頻信息,增加語音的高頻分辨率;再進行分幀加窗操作,窗口長度設置為25ms并作為一幀音頻信息,步長設置為10ms,即每次取出25ms的音頻,再移動10ms取下一幀的音頻;然后進行離散傅里葉變換,將每一幀的時域信號轉換為頻域信號,常用方法為快速傅里葉變換,可將時間復雜度從O(N2)降為O(Nlog2N);再計算梅爾頻譜并取對數,它符合人耳線性感知的頻率曲線,將頻譜規劃到梅爾刻度上,能有效促進語音識別系統的性能,最終得到Fbank音頻特征;
Step 2:利用卷積神經網絡進一步提取音頻的深度特征;
Step 2.1:先將Step 1.2得到的二維Fbank特征參數變換為三維,并輸入到卷積神經網絡中進一步提取底層特征,使用的卷積神經網絡借鑒VGG網絡模型,共有6層,其中包括4層2D卷積和2層最大池化層進行下采樣,每一個卷積層的卷積核均為3*3,步長為1,即卷積層不進行下采樣,使用池化層進行下采樣,每一個池化層池化核均為3*3,步長為2;
Step 3:利用BiLSTM關注音頻序列在時間序列上的上下文信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南師范大學,未經云南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211209083.6/2.html,轉載請聲明來源鉆瓜專利網。





