[發(fā)明專利]中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)有效

申請(qǐng)?zhí)枺?/td>	201911297060.3	申請(qǐng)日：	2019-12-16
公開（公告）號(hào)：	CN111161724B	公開（公告）日：	2022-12-13
發(fā)明（設(shè)計(jì)）人：	郭永亮;張坤雷	申請(qǐng)（專利權(quán)）人：	愛馳汽車有限公司
主分類號(hào)：	G10L15/22	分類號(hào)：	G10L15/22;G10L15/24;G10L15/06;G10L25/30;G10L25/57
代理公司：	北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463	代理人：	王思楠
地址：	334000 江西省***	國(guó)省代碼：	江西;36
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	中文視聽結(jié)合語音識(shí)別方法系統(tǒng) 設(shè)備介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)，所述方法包括：分別接收待識(shí)別的視頻信號(hào)和音頻信號(hào)；將所述視頻信號(hào)和音頻信號(hào)輸入訓(xùn)練好的拼音字符序列識(shí)別模型，得到所述拼音字符序列識(shí)別模型輸出的拼音字符序列；將所述拼音字符序列輸入訓(xùn)練好的漢字序列識(shí)別模型，得到所述漢字序列識(shí)別模型輸出的漢字序列。本發(fā)明基于端到端的方式，提出了一種針對(duì)中文的句子級(jí)別的視聽結(jié)合語音識(shí)別方案，將深度神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合，對(duì)音頻信號(hào)和視頻信號(hào)的特征進(jìn)行了充分地挖掘和融合，有助于抬升語音識(shí)別系統(tǒng)的識(shí)別能力。

技術(shù)領(lǐng)域

本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，尤其涉及一種中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)。

背景技術(shù)

語音識(shí)別技術(shù)是一種讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。近二十年來，語音識(shí)別技術(shù)的發(fā)展取得顯著進(jìn)步，開始從實(shí)驗(yàn)室走向市場(chǎng)，特別是最近幾年，人工智能技術(shù)的快速發(fā)展，使得語音識(shí)別技術(shù)的研究取得了較大突破。目前，語音識(shí)別技術(shù)廣泛地應(yīng)用于車載系統(tǒng)、社交聊天、智能家居等領(lǐng)域，為人們的生活提供了很多便利，展現(xiàn)了其強(qiáng)大的實(shí)用性。

通常情況下，語音識(shí)別的輸入僅為音頻信號(hào)，如果語音識(shí)別過程能同時(shí)利用音頻和視頻信號(hào)，兩種信號(hào)可以相互補(bǔ)充，使得輸入信息更加豐富，有助于提高識(shí)別的準(zhǔn)確率，特別是在音頻信號(hào)受損或受到噪聲干擾的情況下，同時(shí)利用音頻和視頻信號(hào)來進(jìn)行語音識(shí)別，是提升語音識(shí)別效果的重要途徑。

對(duì)于同時(shí)利用音頻和視頻信號(hào)的視聽結(jié)合的語音識(shí)別問題，目前專門針對(duì)中文的解決方案幾乎沒有，大部分方案都是針對(duì)英語的語音識(shí)別，或者沒有指定某一種具體的語言，但是中文有其特殊性，例如中文里的詞沒有嚴(yán)格意義的形態(tài)變化，常用漢字?jǐn)?shù)量較多，大約有3500個(gè)等，這些復(fù)雜的特性讓視聽結(jié)合的中文語音識(shí)別任務(wù)充滿了挑戰(zhàn)，因此，針對(duì)英語的或通用的視聽結(jié)合語音識(shí)別方案并不能直接用于解決中文語音識(shí)別問題。此外，在已有的視聽結(jié)合語音識(shí)別方案中，很多都是解決詞語級(jí)別的識(shí)別問題，無法處理連續(xù)說話時(shí)句子級(jí)別的識(shí)別任務(wù)；還有一些方案利用傳統(tǒng)機(jī)器學(xué)習(xí)方法來實(shí)現(xiàn)視聽結(jié)合的語音識(shí)別，這類方法需要手工提取特征，過程較為繁瑣，且最終的識(shí)別效果有限。

發(fā)明內(nèi)容

針對(duì)現(xiàn)有技術(shù)中的問題，本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)的中文視聽結(jié)合語音識(shí)別方法、系統(tǒng)、設(shè)備及介質(zhì)，提出了一種端到端的、針對(duì)中文的句子級(jí)別的視聽結(jié)合語音識(shí)別方案。

本發(fā)明實(shí)施例提供一種中文視聽結(jié)合語音識(shí)別方法，所述方法包括如下步驟：

分別接收待識(shí)別的視頻信號(hào)和音頻信號(hào)；

將所述視頻信號(hào)和音頻信號(hào)輸入訓(xùn)練好的拼音字符序列識(shí)別模型，得到所述拼音字符序列識(shí)別模型輸出的拼音字符序列；

將所述拼音字符序列輸入訓(xùn)練好的漢字序列識(shí)別模型，得到所述漢字序列識(shí)別模型輸出的漢字序列。

可選地，所述拼音字符序列識(shí)別模型包括視頻編碼器、音頻編碼器和第一解碼器；

將所述視頻信號(hào)和音頻信號(hào)輸入訓(xùn)練好的拼音字符序列識(shí)別模型，得到所述拼音字符序列識(shí)別模型輸出的拼音字符序列，包括如下步驟：

所述視頻編碼器提取所述視頻信號(hào)的特征序列；

所述音頻編碼器提取所述音頻信號(hào)的特征序列；

所述音頻編碼器將所述視頻信號(hào)的特征序列和所述音頻信號(hào)的特征序列通過注意力機(jī)制進(jìn)行融合，得到融合特征序列；

所述第一解碼器根據(jù)所述融合特征序列輸出拼音字符序列。

可選地，所述視頻編碼器提取所述視頻信號(hào)的特征序列，包括如下步驟：

將所述視頻信號(hào)的圖像幀序列輸入卷積神經(jīng)網(wǎng)絡(luò)，獲取所述卷積神經(jīng)網(wǎng)絡(luò)輸出的每一幀圖像的圖像特征；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于愛馳汽車有限公司，未經(jīng)愛馳汽車有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911297060.3/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。