[發(fā)明專利]中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201911297060.3 | 申請(qǐng)日: | 2019-12-16 |
| 公開(公告)號(hào): | CN111161724B | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設(shè)計(jì))人: | 郭永亮;張坤雷 | 申請(qǐng)(專利權(quán))人: | 愛馳汽車有限公司 |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L15/24;G10L15/06;G10L25/30;G10L25/57 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
| 地址: | 334000 江西省*** | 國(guó)省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 視聽 結(jié)合 語音 識(shí)別 方法 系統(tǒng) 設(shè)備 介質(zhì) | ||
本發(fā)明提供了一種中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì),所述方法包括:分別接收待識(shí)別的視頻信號(hào)和音頻信號(hào);將所述視頻信號(hào)和音頻信號(hào)輸入訓(xùn)練好的拼音字符序列識(shí)別模型,得到所述拼音字符序列識(shí)別模型輸出的拼音字符序列;將所述拼音字符序列輸入訓(xùn)練好的漢字序列識(shí)別模型,得到所述漢字序列識(shí)別模型輸出的漢字序列。本發(fā)明基于端到端的方式,提出了一種針對(duì)中文的句子級(jí)別的視聽結(jié)合語音識(shí)別方案,將深度神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合,對(duì)音頻信號(hào)和視頻信號(hào)的特征進(jìn)行了充分地挖掘和融合,有助于抬升語音識(shí)別系統(tǒng)的識(shí)別能力。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù)
語音識(shí)別技術(shù)是一種讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。近二十年來,語音識(shí)別技術(shù)的發(fā)展取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng),特別是最近幾年,人工智能技術(shù)的快速發(fā)展,使得語音識(shí)別技術(shù)的研究取得了較大突破。目前,語音識(shí)別技術(shù)廣泛地應(yīng)用于車載系統(tǒng)、社交聊天、智能家居等領(lǐng)域,為人們的生活提供了很多便利,展現(xiàn)了其強(qiáng)大的實(shí)用性。
通常情況下,語音識(shí)別的輸入僅為音頻信號(hào),如果語音識(shí)別過程能同時(shí)利用音頻和視頻信號(hào),兩種信號(hào)可以相互補(bǔ)充,使得輸入信息更加豐富,有助于提高識(shí)別的準(zhǔn)確率,特別是在音頻信號(hào)受損或受到噪聲干擾的情況下,同時(shí)利用音頻和視頻信號(hào)來進(jìn)行語音識(shí)別,是提升語音識(shí)別效果的重要途徑。
對(duì)于同時(shí)利用音頻和視頻信號(hào)的視聽結(jié)合的語音識(shí)別問題,目前專門針對(duì)中文的解決方案幾乎沒有,大部分方案都是針對(duì)英語的語音識(shí)別,或者沒有指定某一種具體的語言,但是中文有其特殊性,例如中文里的詞沒有嚴(yán)格意義的形態(tài)變化,常用漢字?jǐn)?shù)量較多,大約有3500個(gè)等,這些復(fù)雜的特性讓視聽結(jié)合的中文語音識(shí)別任務(wù)充滿了挑戰(zhàn),因此,針對(duì)英語的或通用的視聽結(jié)合語音識(shí)別方案并不能直接用于解決中文語音識(shí)別問題。此外,在已有的視聽結(jié)合語音識(shí)別方案中,很多都是解決詞語級(jí)別的識(shí)別問題,無法處理連續(xù)說話時(shí)句子級(jí)別的識(shí)別任務(wù);還有一些方案利用傳統(tǒng)機(jī)器學(xué)習(xí)方法來實(shí)現(xiàn)視聽結(jié)合的語音識(shí)別,這類方法需要手工提取特征,過程較為繁瑣,且最終的識(shí)別效果有限。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的問題,本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)的中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì),提出了一種端到端的、針對(duì)中文的句子級(jí)別的視聽結(jié)合語音識(shí)別方案。
本發(fā)明實(shí)施例提供一種中文視聽結(jié)合語音識(shí)別方法,所述方法包括如下步驟:
分別接收待識(shí)別的視頻信號(hào)和音頻信號(hào);
將所述視頻信號(hào)和音頻信號(hào)輸入訓(xùn)練好的拼音字符序列識(shí)別模型,得到所述拼音字符序列識(shí)別模型輸出的拼音字符序列;
將所述拼音字符序列輸入訓(xùn)練好的漢字序列識(shí)別模型,得到所述漢字序列識(shí)別模型輸出的漢字序列。
可選地,所述拼音字符序列識(shí)別模型包括視頻編碼器、音頻編碼器和第一解碼器;
將所述視頻信號(hào)和音頻信號(hào)輸入訓(xùn)練好的拼音字符序列識(shí)別模型,得到所述拼音字符序列識(shí)別模型輸出的拼音字符序列,包括如下步驟:
所述視頻編碼器提取所述視頻信號(hào)的特征序列;
所述音頻編碼器提取所述音頻信號(hào)的特征序列;
所述音頻編碼器將所述視頻信號(hào)的特征序列和所述音頻信號(hào)的特征序列通過注意力機(jī)制進(jìn)行融合,得到融合特征序列;
所述第一解碼器根據(jù)所述融合特征序列輸出拼音字符序列。
可選地,所述視頻編碼器提取所述視頻信號(hào)的特征序列,包括如下步驟:
將所述視頻信號(hào)的圖像幀序列輸入卷積神經(jīng)網(wǎng)絡(luò),獲取所述卷積神經(jīng)網(wǎng)絡(luò)輸出的每一幀圖像的圖像特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于愛馳汽車有限公司,未經(jīng)愛馳汽車有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911297060.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





