[發(fā)明專利]一種基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法在審

申請(qǐng)?zhí)枺?/td>	202211536927.8	申請(qǐng)日：	2022-12-02
公開（公告）號(hào)：	CN115985310A	公開（公告）日：	2023-04-18
發(fā)明（設(shè)計(jì)）人：	錢兆鵬;蘇小蘇;于重重	申請(qǐng)（專利權(quán)）人：	北京工商大學(xué)
主分類號(hào)：	G10L15/22	分類號(hào)：	G10L15/22;G10L15/25;G10L19/00;G06V40/16;G06V10/44;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08
代理公司：	北京萬(wàn)象新悅知識(shí)產(chǎn)權(quán)代理有限公司 11360	代理人：	黃鳳茹
地址：	100048***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于多級(jí) 視聽融合音障語(yǔ)音識(shí)別方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法，包括如下步驟：

步驟S1.獲取視聽數(shù)據(jù)，所述視聽數(shù)據(jù)包括：構(gòu)音障礙者發(fā)音時(shí)的面部運(yùn)動(dòng)視頻和與視頻同步的語(yǔ)音數(shù)據(jù)；

步驟S2.構(gòu)建視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行一級(jí)視覺融合編碼，根據(jù)構(gòu)音障礙者的面部運(yùn)動(dòng)視頻和面部言語(yǔ)功能區(qū)域，對(duì)各個(gè)面部言語(yǔ)功能區(qū)域進(jìn)行視覺融合編碼；包括：

S2.1定義多個(gè)面部言語(yǔ)功能區(qū)域；

S2.2對(duì)采集到的面部運(yùn)動(dòng)視頻分幀，逐幀獲得面部圖像；裁取得到多個(gè)面部言語(yǔ)功能區(qū)域；具體是使用dlib庫(kù)中的人臉檢測(cè)器來檢測(cè)和提取多個(gè)面部言語(yǔ)功能區(qū)域圖像；

S2.3構(gòu)建一級(jí)視覺融合編碼模塊，對(duì)各個(gè)面部言語(yǔ)功能區(qū)域進(jìn)行一級(jí)視覺融合編碼；

構(gòu)建的視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型包括一系列卷積層，其中，卷積層運(yùn)算定義為Y_i＝F_i(X_i)，X_i、Y_i分別表示第i層卷積層的輸入面部言語(yǔ)功能區(qū)域圖像特征和輸出融合圖像特征；構(gòu)建的視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型定義為：

Y_i＝F_k⊙F_k-1…⊙F₂⊙F₁(I)＝⊙_i＝1...kF_i(I)

其中，⊙表示卷積運(yùn)算；I為源圖像；F_i表示第i層卷積層的卷積運(yùn)算；i＝1..k；

該視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型使用多層卷積層；不使用全連接層；輸入圖像為任何尺寸；除了最后一個(gè)卷積層由Tanh函數(shù)激活之外，其他卷積層激活函數(shù)均采用ReLU函數(shù)；

對(duì)截取好的多個(gè)面部言語(yǔ)功能區(qū)域進(jìn)行圖像融合，對(duì)融合后的特征進(jìn)行圖像重建，得到融合后的視覺特征，即視覺融合圖像；包括：

S2.3.1構(gòu)建特征提取模塊，用于提取源圖像的不同特征，包括源圖像的紋理細(xì)節(jié)特征、顏色特征和空間信息特征；

S2.3.2構(gòu)建特征融合模塊，將提取好的圖像特征進(jìn)行級(jí)聯(lián)拼接得到融合特征；

S2.3.3構(gòu)建圖像重建模塊，對(duì)得到的融合特征進(jìn)行圖像重建，采用密集連接的方法將提取的紋理細(xì)節(jié)信息融合到提取的空間信息中，得到視覺融合圖像；

步驟S3.提取視聽特征并對(duì)齊；視聽特征包括視覺融合圖像特征和構(gòu)音障礙者的語(yǔ)音聲學(xué)特征；

S3.1對(duì)視覺融合圖像提取得到發(fā)音時(shí)的視覺融合圖像特征；

S3.2提取得到構(gòu)音障礙語(yǔ)音聲學(xué)特征；

S3.3對(duì)齊構(gòu)音障礙語(yǔ)音聲學(xué)特征和發(fā)音時(shí)的視覺融合圖像特征，發(fā)音音素同時(shí)對(duì)應(yīng)一段發(fā)音視頻和一段語(yǔ)音片段，即得到對(duì)齊好的視聽特征；

步驟S4.利用對(duì)齊好的視聽特征，通過視聽二級(jí)融合進(jìn)行構(gòu)音障礙語(yǔ)音識(shí)別，即通過視聽二級(jí)融合獲得語(yǔ)音和視頻的融合特征參數(shù)矩陣；根據(jù)所獲得的融合特征參數(shù)矩陣，通過訓(xùn)練深層時(shí)序神經(jīng)網(wǎng)絡(luò)映射模型，獲得由視聽融合特征到音素字符的映射關(guān)系，得到一串音素字符；

S4.2對(duì)得到的音素字符進(jìn)行解碼，得到構(gòu)音障礙語(yǔ)音；

通過上述步驟，實(shí)現(xiàn)基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音的識(shí)別。

2.如權(quán)利要求1所述基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法，其特征是，步驟S2構(gòu)建的視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層采用3×3和1×1類型的卷積核，步長(zhǎng)均為1。

3.如權(quán)利要求1所述基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法，其特征是，步驟S2.1定義的多個(gè)面部言語(yǔ)功能區(qū)域包括唇區(qū)域、下巴區(qū)域、左腭區(qū)域、右腭區(qū)域和鼻區(qū)域。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工商大學(xué)，未經(jīng)北京工商大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211536927.8/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)，例如對(duì)說話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】