[發明專利]一種跨模態多特征融合的音視頻語音識別方法及系統在審
| 申請號: | 202011001648.2 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112053690A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 李樹濤;宋啟亞;孫斌 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G10L15/25 | 分類號: | G10L15/25;G10L15/26;G10L25/30;G10L15/02;G10L15/20;G06K9/00;G06K9/62;G06T7/269 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 跨模態多 特征 融合 視頻 語音 識別 方法 系統 | ||
1.一種跨模態多特征融合的音視頻語音識別方法,其特征在于,包括:
1)針對說話人的音頻數據進行預處理,得到語譜圖序列
2)針對語譜圖序列
3)采用多頭注意力機制針對得到的語音時序特征
4)首先通過注意力層的輸出與輸入特征之間的相關性,得到輸入側各模態特征注意力向量
2.根據權利要求1所述的跨模態多特征融合的音視頻語音識別方法,其特征在于,步驟1)中針對說話人的音頻數據進行預處理的步驟包括:針對說話人的音頻數據進行預加重,將預加重的音頻數據進行分幀處理,將不定長的音頻序列劃分成若干固定長度的語音片段形成語音幀,將分幀后的音頻數據進行加窗處理以平滑語音信號;通過快速傅里葉變換將每幀的音頻數據變成相應的頻譜圖,然后將每幀對應頻譜圖按軸頻率軸拼接,最后進行對數能量譜變換得到語譜圖序列
3.根據權利要求1所述的跨模態多特征融合的音視頻語音識別方法,其特征在于,步驟1)中針對說話人的視頻數據進行預處理的步驟包括:進行面部檢測得到人臉信息;使用人臉關鍵點檢測模型得到人臉關鍵點;最后通過人臉關鍵點坐標進行唇部區域估計,得到所需的唇部區域,從而提取得到唇部區域圖像序列
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011001648.2/1.html,轉載請聲明來源鉆瓜專利網。





