[發(fā)明專利]基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法在審
| 申請?zhí)枺?/td> | 202211209083.6 | 申請日: | 2022-09-30 |
| 公開(公告)號: | CN115294973A | 公開(公告)日: | 2022-11-04 |
| 發(fā)明(設計)人: | 王俊;劉金生;吳迪;陳懇;甘健侯;周菊香 | 申請(專利權)人: | 云南師范大學 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L25/30;G06N3/08;G06N3/04 |
| 代理公司: | 昆明明潤知識產(chǎn)權代理事務所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650500 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經(jīng)網(wǎng)絡 注意力 機制 孤立 詞匯 識別 方法 | ||
1.基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:所述方法包括如下步驟:
Step 1:將原始佤語詞匯語音經(jīng)過預處理得到Fbank音頻特征;
Step 2:利用卷積神經(jīng)網(wǎng)絡進一步提取音頻的深度特征;
Step 3:利用BiLSTM關注音頻序列在時間序列上的上下文信息;
Step 4:將BiLSTM層的輸出特征輸入到Attention層計算目標損失和輸出結果。
2.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:所述Step 1的具體步驟如下:
Step 1.1:使用錄音設備對當?shù)囟辔回糇迦诉M行常用佤語詞匯語音采集,其中發(fā)音人包括不同年齡段并且分男女,以此來豐富佤語孤立詞匯語音語料庫;
Step 1.2:對Step 1.1中采集的佤語孤立詞匯語音進行預處理:首先對語音信號進行預加重處理,對高頻部分進行加重,增加語音的高頻分辨率;再進行分幀加窗操作,窗口長度設置為25ms作為一幀音頻信息,步長設置為10ms,即每次取出25ms的音頻,再移動10ms取下一幀的音頻;下一步進行離散傅里葉變換,方法為快速傅里葉變換,將每一幀的時域信號轉換為頻域信號;計算梅爾頻譜并取對數(shù),將頻譜規(guī)劃到梅爾刻度上,最終得到Fbank音頻特征。
3.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:所述Step 2包括:
Step 2.1:將Step 1得到的二維Fbank特征參數(shù)變換為三維,并輸入到卷積神經(jīng)網(wǎng)絡中進一步提取底層特征,卷積神經(jīng)網(wǎng)絡借鑒VGG網(wǎng)絡模型,共有6層,其中包括4層2D卷積和2層最大池化層進行下采樣。
4.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:所述Step3包括:
Step 3.1:將Step2輸出的特征輸入到雙向長短期記憶網(wǎng)絡BiLSTM層,使各音頻幀充分學習到輸入音頻序列的上下文信息,將最后一時刻的輸出和所有時刻的輸出合并為一個向量,作為最終的輸出特征向量。
5.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:所述Step4包括:
Step 4.1:將Step3輸出的最終特征向量輸入到Attention層,直接使用注意力層進行預測,Attention不需要顯式地對齊每一個語音幀和輸出符號,并且學習到輸出之間的依賴關系,每一時刻的輸出在之前所有預測輸出的基礎上進行預測,最終得到預測的輸出序列并計算目標損失,從而不斷的優(yōu)化模型參數(shù)。
6.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:Step1中,對原始的佤語語音信號經(jīng)過預處理和變換計算得到Fbank音頻特征。
7.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:Step2中,使用卷積神經(jīng)網(wǎng)絡進一步提取音頻信號的特征。
8.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:Step3中使用BiLSTM在時間序列上對語音特征進行處理。
9.根據(jù)權利要求1所述的基于卷積神經(jīng)網(wǎng)絡和注意力機制的佤語孤立詞匯識別方法,其特征在于:Step4中使用注意力機制計算各音頻幀與其他幀之間依賴關系的重要程度并進行輸出預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南師范大學,未經(jīng)云南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211209083.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調方法、系統(tǒng)、終端和存儲介質
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





