[發明專利]一種基于卷積塊注意機制的視聽雙模態語音識別方法有效
| 申請號: | 202011080817.6 | 申請日: | 2020-10-11 |
| 公開(公告)號: | CN112216271B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 王興梅;趙一旭;孫衛琦 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L17/00;G10L25/84;G06N3/08;G06N3/04;G06V10/25;G06V10/82 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 注意 機制 視聽 雙模 語音 識別 方法 | ||
1.一種基于卷積塊注意機制的視聽雙模態語音識別方法,其特征是,包括如下步驟:
(1)對視聽雙模態信息數據集進行預處理:①對視聽雙模態信息數據集中的原始圖像序列提取嘴部ROI圖像序列,進行圖像增強,得到預處理視覺信息數據;②對視聽雙模態信息數據集中的原始音頻數據進行STFT算法處理及最大最小歸一化處理,得到預處理聽覺信息數據;
(2)提出構建CBAM-AV-LipNet模型:①以3層CBAM-STCNN Module,1層Bi-GRU堆疊構成視覺特征提取網絡,CBAM-STCNN Module由時空卷積層、通道注意力模塊以及空間注意力模塊構成;首先以預處理視覺信息數據為輸入,通過CBAM-STCNN Module提取預處理視覺信息數據的視覺空間深層特征,隨后利用Bi-GRU對視覺空間深層特征進一步提取視覺深層時序特征,得到視覺深層特征矩陣;②以3層CBAM-CNN Module,1層Bi-GRU堆疊構成聽覺特征提取網絡,CBAM-CNN Module由卷積神經網絡層、通道注意力模塊以及空間注意力模塊構成;首先以預處理聽覺信息數據為輸入,通過CBAM-CNN Module提取預處理聽覺信息數據的聽覺空間深層特征,隨后利用Bi-GRU對聽覺空間深層特征進一步提取聽覺深層時序特征,得到聽覺深層特征矩陣;③將視覺特征提取網絡提取到的視覺深層特征矩陣和聽覺特征提取網絡提取到的聽覺深層特征矩陣在時間維度上連接,通過2層Bi-GRU、1層FC和softmax層提取深層融合特征;④以CTC損失函數計算損失值,反向傳播更新模型參數,得到訓練收斂的CBAM-AV-LipNet模型;
(3)將訓練好的CBAM-AV-LipNet模型對測試數據進行識別以完成基于卷積塊注意機制的視聽雙模態語音識別任務:①利用CBAM-AV-LipNet模型對測試集進行特征提取得到深層融合特征向量;②對深層融合特征向量進行CTC貪婪搜索解碼,獲得識別文本信息,實現視聽雙模態語音識別任務。
2.根據權利要求1所述的基于卷積塊注意機制的視聽雙模態語音識別方法,其特征是:在步驟(1)中對視聽雙模態信息數據集中的原始圖像序列,使用Dlib臉部檢測器提取嘴部ROI圖像序列,進行顏色規范化并以概率p水平翻轉完成圖像增強處理,得到預處理視覺信息數據。
3.根據權利要求1或2所述的基于卷積塊注意機制的視聽雙模態語音識別方法,其特征是:所述步驟(1)中對視聽雙模態信息數據集中的原始音頻數據,使用滑窗大小為40ms,滑窗滑動步長為10ms,采樣率為16kHz的STFT算法,得到321維的頻譜矩陣,并對頻譜矩陣使用最大最小歸一化處理,得到預處理聽覺信息數據。
4.根據權利要求1所述的基于卷積塊注意機制的視聽雙模態語音識別方法,其特征是:在步驟(2)中CBAM-STCNN Module由時空卷積層、通道注意力模塊以及空間注意力模塊構成;其中,時空卷積層提取特征的卷積操作為:表示第l層的輸出,表示第l-1層的輸出,為第l層的學習權重參數,表示第l層的偏置,表示激活函數,C表示通道數,T表示時間步長,W表示特征映射的寬,H表示特征映射的高;令通道注意力模塊提取通道特征的過程為:Fv′表示視覺通道深層特征矩陣,Fv表示視覺時空深層特征,表示外積操作,Mc(·)表示通道注意力矩陣,f1(·)和f2(·)表示卷積操作,AvgPool(·)為平均池化操作,MaxPool(·)為最大池化操作,sigm(·)為sigmoid激活函數;空間注意力模塊提取空間特征的過程為:Fv″表示視覺空間深層特征矩陣,表示連接操作,Ms(·)表示空間注意力矩陣,f7×7×7表示7×7×7的卷積層。
5.根據權利要求1或4所述的基于卷積塊注意機制的視聽雙模態語音識別方法,其特征是:所述步驟(2)中使用Bi-GRU對CBAM-STCNN Module提取到的視覺空間深層特征Fv″進一步提取視覺深層時序特征,得到視覺深層特征矩陣Fv-final。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011080817.6/1.html,轉載請聲明來源鉆瓜專利網。





