[發(fā)明專利]中文視聽結合語音識別方法、系統(tǒng)、設備及介質有效
| 申請?zhí)枺?/td> | 201911297060.3 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111161724B | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設計)人: | 郭永亮;張坤雷 | 申請(專利權)人: | 愛馳汽車有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/24;G10L15/06;G10L25/30;G10L25/57 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
| 地址: | 334000 江西省*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 視聽 結合 語音 識別 方法 系統(tǒng) 設備 介質 | ||
1.一種中文視聽結合語音識別方法,其特征在于,所述方法包括如下步驟:
分別接收待識別的視頻信號和音頻信號;
將所述視頻信號和音頻信號輸入訓練好的拼音字符序列識別模型,得到所述拼音字符序列識別模型輸出的拼音字符序列;
將所述拼音字符序列輸入訓練好的漢字序列識別模型,得到所述漢字序列識別模型輸出的漢字序列;
其中,所述拼音字符序列識別模型包括視頻編碼器、音頻編碼器和第一解碼器;
將所述視頻信號和音頻信號輸入訓練好的拼音字符序列識別模型,得到所述拼音字符序列識別模型輸出的拼音字符序列,包括如下步驟:
所述視頻編碼器提取所述視頻信號的特征序列;
所述音頻編碼器提取所述音頻信號的特征序列;
所述音頻編碼器將所述視頻信號的特征序列和所述音頻信號的特征序列通過注意力機制進行融合,得到融合特征序列;其中,融合采用如下公式(1)和(2):
(1)
(2)
其中,表示注意力分數(shù),表示融合后得到的融合特征,query表示音頻編碼器頂層LSTM的狀態(tài)數(shù)據,value表示視頻編碼器頂層LSTM的輸出,經過注意力機制的融合,音頻編碼器頂層LSTM的輸出為音頻和視頻信號的融合特征;
所述第一解碼器根據所述融合特征序列輸出拼音字符序列。
2.根據權利要求1所述的中文視聽結合語音識別方法,其特征在于,所述視頻編碼器提取所述視頻信號的特征序列,包括如下步驟:
將所述視頻信號的圖像幀序列輸入卷積神經網絡,獲取所述卷積神經網絡輸出的每一幀圖像的圖像特征;
將所述圖像特征輸入第一循環(huán)神經網絡,提取所述圖像幀序列之間的時序特征,將所述第一循環(huán)神經網絡的輸出序列作為所述視頻信號的特征序列。
3.根據權利要求1所述的中文視聽結合語音識別方法,其特征在于,所述音頻編碼器提取所述音頻信號的特征序列,包括如下步驟:
計算所述音頻信號的梅爾頻率倒譜系數(shù)值;
將所述梅爾頻率倒譜系數(shù)值輸入第二循環(huán)神經網絡,提取所述音頻信號的特征序列。
4.根據權利要求3所述的中文視聽結合語音識別方法,其特征在于,所述第二循環(huán)神經網絡包括三層長短期記憶層;
所述音頻編碼器將所述視頻信號的特征序列和所述音頻信號的特征序列通過注意力機制進行融合,包括所述音頻編碼器在所述第二循環(huán)神經網絡的頂層長短期記憶層中,基于注意力機制將所述頂層長短期記憶層的狀態(tài)數(shù)據和所述視頻信號的特征序列進行融合。
5.根據權利要求1所述的中文視聽結合語音識別方法,其特征在于,所述第一解碼器根據所述融合特征序列中輸出拼音字符序列,包括如下步驟:
所述第一解碼器將所述融合特征序列輸入基于注意力機制的第三循環(huán)神經網絡中,所述循環(huán)神經網絡包括特征提取層和分類層;
從所述第三循環(huán)神經網絡的分類層的輸出中得到所述拼音字符序列。
6.根據權利要求1所述的中文視聽結合語音識別方法,其特征在于,所述漢字序列識別模型包括編碼器和第二解碼器;
將所述拼音字符序列輸入訓練好的漢字序列識別模型,得到所述漢字序列識別模型輸出的漢字序列,包括如下步驟:
所述編碼器將所述拼音字符序列輸入第四循環(huán)神經網絡中提取所述拼音字符序列的特征;
所述第二解碼器將所述拼音字符序列的特征輸入第五循環(huán)神經網絡中,所述第五循環(huán)神經網絡包括特征提取層和分類層;
從所述第五循環(huán)神經網絡的分類層的輸出中得到所述漢字序列。
7.根據權利要求6所述的中文視聽結合語音識別方法,其特征在于,所述第四循環(huán)神經網絡和第五循環(huán)神經網絡分別包括兩層門控循環(huán)單元層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于愛馳汽車有限公司,未經愛馳汽車有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911297060.3/1.html,轉載請聲明來源鉆瓜專利網。





