[發(fā)明專利]一種基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211536927.8 | 申請(qǐng)日: | 2022-12-02 |
| 公開(公告)號(hào): | CN115985310A | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 錢兆鵬;蘇小蘇;于重重 | 申請(qǐng)(專利權(quán))人: | 北京工商大學(xué) |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L15/25;G10L19/00;G06V40/16;G06V10/44;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 北京萬(wàn)象新悅知識(shí)產(chǎn)權(quán)代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100048*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多級(jí) 視聽 融合 音障 語(yǔ)音 識(shí)別 方法 | ||
1.一種基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法,包括如下步驟:
步驟S1.獲取視聽數(shù)據(jù),所述視聽數(shù)據(jù)包括:構(gòu)音障礙者發(fā)音時(shí)的面部運(yùn)動(dòng)視頻和與視頻同步的語(yǔ)音數(shù)據(jù);
步驟S2.構(gòu)建視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行一級(jí)視覺融合編碼,根據(jù)構(gòu)音障礙者的面部運(yùn)動(dòng)視頻和面部言語(yǔ)功能區(qū)域,對(duì)各個(gè)面部言語(yǔ)功能區(qū)域進(jìn)行視覺融合編碼;包括:
S2.1定義多個(gè)面部言語(yǔ)功能區(qū)域;
S2.2對(duì)采集到的面部運(yùn)動(dòng)視頻分幀,逐幀獲得面部圖像;裁取得到多個(gè)面部言語(yǔ)功能區(qū)域;具體是使用dlib庫(kù)中的人臉檢測(cè)器來檢測(cè)和提取多個(gè)面部言語(yǔ)功能區(qū)域圖像;
S2.3構(gòu)建一級(jí)視覺融合編碼模塊,對(duì)各個(gè)面部言語(yǔ)功能區(qū)域進(jìn)行一級(jí)視覺融合編碼;
構(gòu)建的視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型包括一系列卷積層,其中,卷積層運(yùn)算定義為Yi=Fi(Xi),Xi、Yi分別表示第i層卷積層的輸入面部言語(yǔ)功能區(qū)域圖像特征和輸出融合圖像特征;構(gòu)建的視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型定義為:
Yi=Fk⊙Fk-1…⊙F2⊙F1(I)=⊙i=1...kFi(I)
其中,⊙表示卷積運(yùn)算;I為源圖像;Fi表示第i層卷積層的卷積運(yùn)算;i=1..k;
該視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型使用多層卷積層;不使用全連接層;輸入圖像為任何尺寸;除了最后一個(gè)卷積層由Tanh函數(shù)激活之外,其他卷積層激活函數(shù)均采用ReLU函數(shù);
對(duì)截取好的多個(gè)面部言語(yǔ)功能區(qū)域進(jìn)行圖像融合,對(duì)融合后的特征進(jìn)行圖像重建,得到融合后的視覺特征,即視覺融合圖像;包括:
S2.3.1構(gòu)建特征提取模塊,用于提取源圖像的不同特征,包括源圖像的紋理細(xì)節(jié)特征、顏色特征和空間信息特征;
S2.3.2構(gòu)建特征融合模塊,將提取好的圖像特征進(jìn)行級(jí)聯(lián)拼接得到融合特征;
S2.3.3構(gòu)建圖像重建模塊,對(duì)得到的融合特征進(jìn)行圖像重建,采用密集連接的方法將提取的紋理細(xì)節(jié)信息融合到提取的空間信息中,得到視覺融合圖像;
步驟S3.提取視聽特征并對(duì)齊;視聽特征包括視覺融合圖像特征和構(gòu)音障礙者的語(yǔ)音聲學(xué)特征;
S3.1對(duì)視覺融合圖像提取得到發(fā)音時(shí)的視覺融合圖像特征;
S3.2提取得到構(gòu)音障礙語(yǔ)音聲學(xué)特征;
S3.3對(duì)齊構(gòu)音障礙語(yǔ)音聲學(xué)特征和發(fā)音時(shí)的視覺融合圖像特征,發(fā)音音素同時(shí)對(duì)應(yīng)一段發(fā)音視頻和一段語(yǔ)音片段,即得到對(duì)齊好的視聽特征;
步驟S4.利用對(duì)齊好的視聽特征,通過視聽二級(jí)融合進(jìn)行構(gòu)音障礙語(yǔ)音識(shí)別,即通過視聽二級(jí)融合獲得語(yǔ)音和視頻的融合特征參數(shù)矩陣;根據(jù)所獲得的融合特征參數(shù)矩陣,通過訓(xùn)練深層時(shí)序神經(jīng)網(wǎng)絡(luò)映射模型,獲得由視聽融合特征到音素字符的映射關(guān)系,得到一串音素字符;
S4.2對(duì)得到的音素字符進(jìn)行解碼,得到構(gòu)音障礙語(yǔ)音;
通過上述步驟,實(shí)現(xiàn)基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音的識(shí)別。
2.如權(quán)利要求1所述基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法,其特征是,步驟S2構(gòu)建的視覺融合卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層采用3×3和1×1類型的卷積核,步長(zhǎng)均為1。
3.如權(quán)利要求1所述基于多級(jí)視聽融合的構(gòu)音障礙語(yǔ)音識(shí)別方法,其特征是,步驟S2.1定義的多個(gè)面部言語(yǔ)功能區(qū)域包括唇區(qū)域、下巴區(qū)域、左腭區(qū)域、右腭區(qū)域和鼻區(qū)域。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工商大學(xué),未經(jīng)北京工商大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211536927.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





