[發明專利]一種跨模態多特征融合的音視頻語音識別方法及系統在審

申請號：	202011001648.2	申請日：	2020-09-22
公開（公告）號：	CN112053690A	公開（公告）日：	2020-12-08
發明（設計）人：	李樹濤;宋啟亞;孫斌	申請（專利權）人：	湖南大學
主分類號：	G10L15/25	分類號：	G10L15/25;G10L15/26;G10L25/30;G10L15/02;G10L15/20;G06K9/00;G06K9/62;G06T7/269
代理公司：	湖南兆弘專利事務所(普通合伙) 43008	代理人：	譚武藝
地址：	410082 湖***	國省代碼：	湖南;43
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種跨模態多特征融合視頻語音識別方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種跨模態多特征融合的音視頻語音識別方法，其特征在于，包括：

1）針對說話人的音頻數據進行預處理，得到語譜圖序列Xa；針對說話人的視頻數據進行預處理，提取唇部區域圖像序列Xv，提取唇部運動信息得到光流圖序列Xo；

2）針對語譜圖序列Xa進行特征提取得到語音時序特征Ha，針對唇部區域圖像序列Xv進行特征提取得到唇部時序特征Hv，針對光流圖序列Xo進行特征提取得到唇部間運動時序特征Ho；

3）采用多頭注意力機制針對得到的語音時序特征Ha、唇部時序特征Hv和唇部間運動時序特征Ho計算不同模態下的關聯表示，得到語音特征的關聯表示Ac、唇部特征的關聯表示Vl和唇部間運動特征的關聯表示Vo；

4）首先通過注意力層的輸出與輸入特征之間的相關性，得到輸入側各模態特征注意力向量A_c^att,V_l^att,V_o^att；其次通過多重線性函數對各注意力向量進行聯合表示，得到最終的表示向量h_f；然后將表示向量h_f通過前饋神經網絡和softmax函數得到其概率分布形式；最后將概率分布形式的表示向量h_f通過Beam-search的方式找到最優的識別結果。

2.根據權利要求1所述的跨模態多特征融合的音視頻語音識別方法，其特征在于，步驟1）中針對說話人的音頻數據進行預處理的步驟包括：針對說話人的音頻數據進行預加重，將預加重的音頻數據進行分幀處理，將不定長的音頻序列劃分成若干固定長度的語音片段形成語音幀，將分幀后的音頻數據進行加窗處理以平滑語音信號；通過快速傅里葉變換將每幀的音頻數據變成相應的頻譜圖，然后將每幀對應頻譜圖按軸頻率軸拼接，最后進行對數能量譜變換得到語譜圖序列Xa。

3.根據權利要求1所述的跨模態多特征融合的音視頻語音識別方法，其特征在于，步驟1）中針對說話人的視頻數據進行預處理的步驟包括：進行面部檢測得到人臉信息；使用人臉關鍵點檢測模型得到人臉關鍵點；最后通過人臉關鍵點坐標進行唇部區域估計，得到所需的唇部區域，從而提取得到唇部區域圖像序列Xv；步驟1）中提取唇部運動信息得到光流圖序列Xo具體是將唇部區域圖像序列Xv輸入預設的光流估計CNN模型，得到對應的光流圖序列Xo。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于湖南大學，未經湖南大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011001648.2/1.html，轉載請聲明來源鉆瓜專利網。