[發(fā)明專利]融合通道注意力和選擇性特征融合機制的唇語識別方法有效
| 申請?zhí)枺?/td> | 202110366767.6 | 申請日: | 2021-04-06 |
| 公開(公告)號: | CN113033452B | 公開(公告)日: | 2022-09-16 |
| 發(fā)明(設(shè)計)人: | 薛峰;楊添;王文博;洪自坤 | 申請(專利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V40/16;G06V20/40;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 安徽省合肥新安專利代理有限責(zé)任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 通道 注意力 選擇性 特征 機制 識別 方法 | ||
1.一種融合通道注意力和選擇性特征融合機制的唇語識別方法,其特征是按如下步驟進行:
步驟1、獲取句子級別的唇語識別視頻數(shù)據(jù)集,并對唇語識別視頻數(shù)據(jù)集中的每個視頻進行人臉特征檢測,提取出嘴唇區(qū)域圖像,從而得到每個視頻的嘴唇區(qū)域圖像集合,并構(gòu)成嘴唇區(qū)域圖像數(shù)據(jù)集L;
步驟2、將所述嘴唇區(qū)域圖像數(shù)據(jù)集L劃分為訓(xùn)練集L1和測試集L2,并將所述訓(xùn)練集L1劃分為多個批次,每個批次包含B個視頻對應(yīng)的嘴唇區(qū)域圖像集合并作為B個訓(xùn)練樣本;每個訓(xùn)練樣本包含T幀嘴唇區(qū)域圖像;每幀嘴唇區(qū)域圖像的通道數(shù)為C、高為H、寬為W;
步驟3、將訓(xùn)練集L1與測試集L2中包含的每個視頻的嘴唇區(qū)域圖像集合所對應(yīng)的真實文本分別記為G1和G2;
步驟4、構(gòu)建融合通道注意力和選擇性特征融合機制的唇語識別網(wǎng)絡(luò);
步驟4.1、構(gòu)建融合通道注意力機制的前端網(wǎng)絡(luò)HN;
所述前端網(wǎng)絡(luò)HN由三個相同的子模塊CAN串聯(lián)組成,每個子模塊CAN依次包括一個3D卷積層、一個3D批正則化層、一個ReLU激活函數(shù)、一個3D Dropout層、一個3D最大池化層以及一個通道注意力網(wǎng)絡(luò)層CA;并將通道注意力網(wǎng)絡(luò)CA的輸出與通道注意力網(wǎng)絡(luò)CA的輸入逐元素相乘后得到的結(jié)果作為每個子模塊CAN的輸出;
所述通道注意力網(wǎng)絡(luò)CA包括兩個支路,第一個支路依次包括:一個3D全局最大池化層,一個將輸入特征通道數(shù)縮小r倍的3D卷積層,一個ReLU激活函數(shù)以及一個將輸入特征通道數(shù)增大r倍的3D卷積層;另一個支路除將3D全局最大池化層改為3D全局平均池化層以外,與第一個支路相同;將兩個支路的輸出經(jīng)過逐元素相加后,再經(jīng)過Sigmoid激活函數(shù)得到注意力網(wǎng)絡(luò)CA的輸出;
步驟4.2、構(gòu)建選擇性特征融合網(wǎng)絡(luò)SKN;
所述選擇性特征融合網(wǎng)絡(luò)SKN由n個相同的選擇性融合子模塊SK串聯(lián)組成,每個選擇性融合子模塊SK按照如式(1)進行處理:
式(1)中,Z表示每個選擇性融合子模塊SK的輸出;代表特征矩陣逐元素相乘操作;tanh為Tanh激活函數(shù);X和Y是選擇性融合子模塊SK的輸入經(jīng)過兩個融合支路得到的兩個不同的特征矩陣,每個融合支路均包括一個全連接層;G(U)表示將兩個融合支路得到的兩個不同的特征矩陣X和Y逐元素相加后的結(jié)果U,再依次經(jīng)過一個將輸入維度縮小r倍的全連接層,一個ReLU激活函數(shù),一個將輸入維度增大r倍的全連接層以及一個Sigmoid激活函數(shù)的操作;
步驟4.3、構(gòu)建長時信息提取的后端網(wǎng)絡(luò)TN;
所述后端網(wǎng)絡(luò)TN依次包括兩層雙向GRU層,一個全連接層以及一個CTC loss層;所述后端網(wǎng)絡(luò)TN的輸入為所述選擇性特征融合網(wǎng)絡(luò)SKN的輸出;
步驟4.4、以所述訓(xùn)練集L1作為所述唇語識別網(wǎng)絡(luò)的輸入,并以與所述訓(xùn)練集L1所對應(yīng)的真實文本集合G1作為標簽,采用CTC loss作為損失函數(shù),再利用Adam優(yōu)化算法對所述唇語識別網(wǎng)絡(luò)進行訓(xùn)練,并結(jié)合所述唇語識別網(wǎng)絡(luò)在測試集L2上的效果,得到最終的唇語識別網(wǎng)絡(luò),用于實現(xiàn)對視頻中說話人嘴唇的運動進行識別,即實現(xiàn)機器唇讀。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110366767.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種安全型氣霧罐
- 下一篇:一種安全氣囊彈起控制方法





