[發(fā)明專(zhuān)利]一種基于卷積塊注意機(jī)制的視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011080817.6 | 申請(qǐng)日: | 2020-10-11 |
| 公開(kāi)(公告)號(hào): | CN112216271B | 公開(kāi)(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 王興梅;趙一旭;孫衛(wèi)琦 | 申請(qǐng)(專(zhuān)利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類(lèi)號(hào): | G10L15/02 | 分類(lèi)號(hào): | G10L15/02;G10L17/00;G10L25/84;G06N3/08;G06N3/04;G06V10/25;G06V10/82 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 卷積 注意 機(jī)制 視聽(tīng) 雙模 語(yǔ)音 識(shí)別 方法 | ||
本發(fā)明提供一種基于卷積塊注意機(jī)制的視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別方法,包括如下步驟:(1)對(duì)視聽(tīng)雙模態(tài)信息數(shù)據(jù)集進(jìn)行預(yù)處理;(2)提出構(gòu)建CBAM?AV?LipNet模型;(3)完成基于卷積塊注意機(jī)制的視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別任務(wù),實(shí)現(xiàn)視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別任務(wù)。本發(fā)明利用提出構(gòu)建的CBAM?AV?LipNet模型對(duì)測(cè)試集進(jìn)行特征提取得到深層融合特征向量,對(duì)其進(jìn)行CTC貪婪搜索解碼,獲得識(shí)別文本信息,完成視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別任務(wù)。本發(fā)明提出的基于卷積塊注意機(jī)制的視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別方法較傳統(tǒng)的語(yǔ)音識(shí)別方法和視覺(jué)語(yǔ)音識(shí)別模型LipNet具有良好的識(shí)別性能和收斂速度,同時(shí)具有一定的抗噪能力和有效性。
技術(shù)領(lǐng)域
本發(fā)明涉及一種視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別方法,尤其涉及一種基于卷積塊注意機(jī)制的視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別方法,屬于深度學(xué)習(xí)語(yǔ)音識(shí)別技術(shù)領(lǐng)域。
背景技術(shù)
隨著信息技術(shù)的飛速發(fā)展,人機(jī)交互技術(shù)作為智能化生活的核心技術(shù),吸引越來(lái)越多的研究學(xué)者投入到相關(guān)的研究工作中。其中,語(yǔ)音識(shí)別技術(shù)的出現(xiàn)使得計(jì)算機(jī)可以“聽(tīng)懂”人類(lèi)的語(yǔ)音,真正意義上實(shí)現(xiàn)了人機(jī)交互。傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)是以聽(tīng)覺(jué)信息為研究對(duì)象,但由于在現(xiàn)實(shí)的音頻環(huán)境中,存在大量噪聲或存在多說(shuō)話(huà)者的情況,傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)往往不能高效地識(shí)別音頻信息內(nèi)容。近年來(lái),視覺(jué)信息作為傳統(tǒng)語(yǔ)音識(shí)別方法的補(bǔ)充信息,被引入到語(yǔ)音識(shí)別技術(shù)中,它可以很好地提升高強(qiáng)度噪聲或嘈雜環(huán)境中語(yǔ)音信息的識(shí)別率,產(chǎn)生的模型更具魯棒性。因此,基于視覺(jué)的語(yǔ)音識(shí)別技術(shù),以及聽(tīng)覺(jué)和視覺(jué)相結(jié)合的視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別方法得以快速發(fā)展。在已有的文獻(xiàn)中最著名和效果最好的方法主要包括:1.基于視覺(jué)語(yǔ)音識(shí)別方法的端到端唇讀網(wǎng)絡(luò):2016年Assael Y M,Shillingford B,Whiteson S,et al.Lipnet:End-to-end sentence-level lipreading.https://arxiv.org/abs/1611.01599.這篇論文是牛津大學(xué)、Google DeepMind和加拿大高等研究院(CIFAR)聯(lián)合首次發(fā)布的第一個(gè)在唇讀領(lǐng)域?qū)⑸疃葘W(xué)習(xí)應(yīng)用于端到端學(xué)習(xí)的網(wǎng)絡(luò)模型,具有重要價(jià)值的學(xué)術(shù)論文。提出利用深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)句層面的自動(dòng)唇讀技術(shù)LipNet模型,采用一種能夠?qū)⒖勺冮L(zhǎng)度的視頻序列映射為文本的模型,完全是以端到端的方式訓(xùn)練,模型實(shí)現(xiàn)了93.4%的準(zhǔn)確度,超過(guò)經(jīng)驗(yàn)豐富的人類(lèi)唇讀者。2.基于CNN的單詞級(jí)別視聽(tīng)雙模態(tài)模型方法:2016年Chung J S,Zisserman A.Lip reading in the wild.Asian Conferenceon Computer Vision.Springer,Cham,2016:87-103.提出一種基于CNN的單詞級(jí)別識(shí)別模型,該模型以VGG-M為基礎(chǔ),構(gòu)建多路特征提取框架,最終獲得良好的識(shí)別效果。3.基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的單詞級(jí)別視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別模型:2018年P(guān)etridis S,Stafylakis T,MaP,et al.End-to-end audiovisual speech recognition.IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).Calgary Canada:IEEE Computer Society,2018:6548-6552.提出利用ResNet結(jié)構(gòu)對(duì)視覺(jué)、聽(tīng)覺(jué)雙模態(tài)信息進(jìn)行特征提取并得到特征向量,將特征向量分為正向、反向兩個(gè)流,均經(jīng)過(guò)LSTM提取時(shí)序特征得到新的特征向量,將上述兩個(gè)特征向量融合完成最終的識(shí)別。4.基于SDBN和BLSTM注意力融合的端到端視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別模型:2019年王一鳴,陳懇,薩阿卜杜薩拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端視聽(tīng)雙模態(tài)語(yǔ)音識(shí)別.電信科學(xué),2019,35(12):79-89.提出使用SDBN提取稀疏特征,BLSTM提取時(shí)序特征,通過(guò)注意力機(jī)制將視覺(jué)信息數(shù)據(jù)和聽(tīng)覺(jué)信息數(shù)據(jù)對(duì)齊,該模型具有一定的有效性和魯棒性。5.基于DenseNet和resBi-LSTM的漢語(yǔ)唇讀語(yǔ)音識(shí)別方法:2020年Xuejuan Chen,Jixiang Du,HongboZhang.Lipreading with DenseNet and resBi-LSTM.Signal,Image and VideoProcessing,2020:1-9.提出一種由三維卷積層、DenseNet和剩余雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)組成的模型,采用多重注意力疊加模型將漢語(yǔ)拼音轉(zhuǎn)換為漢字,最終獲得漢字結(jié)果,其能有效地提高語(yǔ)音識(shí)別效果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011080817.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測(cè)設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測(cè)方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車(chē)市場(chǎng)準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





