[發(fā)明專利]語音識別方法及智能設(shè)備在審

申請?zhí)枺?/td>	201810877097.2	申請日：	2018-08-03
公開（公告）號：	CN110808050A	公開（公告）日：	2020-02-18
發(fā)明（設(shè)計）人：	孫玨	申請（專利權(quán)）人：	蔚來汽車有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/02;G06F40/30
代理公司：	中國專利代理(香港)有限公司 72001	代理人：	王星;陳嵐
地址：	中國香港中環(huán)***	國省代碼：	香港;81
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音識別方法智能設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種用于智能設(shè)備的語音識別方法，包括如下步驟：采集第一音頻數(shù)據(jù)，并從中提取至少一個語音詞；基于語音詞進(jìn)行喚醒識別，以確定是否喚醒智能設(shè)備；基于智能設(shè)備的喚醒而采集第二音頻數(shù)據(jù)，并從中提取至少一個三音素；基于每個三音素相應(yīng)的后驗概率進(jìn)行語音識別；基于語音識別的結(jié)果進(jìn)行意圖分析以確定智能設(shè)備是否進(jìn)行響應(yīng)。其可以有效避免智能設(shè)備的誤啟動、誤響應(yīng)，還能夠更準(zhǔn)確地判明用戶意圖以進(jìn)行智能響應(yīng)，有利于提高用戶的使用體驗。

技術(shù)領(lǐng)域

本發(fā)明涉及語音識別技術(shù)領(lǐng)域，更具體地說，涉及一種語音識別方法及智能設(shè)備。

背景技術(shù)

具備語音喚醒功能的電子設(shè)備已逐漸進(jìn)入家庭中，這得益于人工智能的快速發(fā)展以及語音識別技術(shù)的成熟。

經(jīng)統(tǒng)計發(fā)現(xiàn)，基于2個音節(jié)的喚醒識別的誤喚醒率明顯高于基于3或4個音節(jié)的喚醒識別。可以理解，喚醒詞越短，誤識別率越高。因此，在目前常用的一些語音喚醒服務(wù)中，算法設(shè)定的喚醒關(guān)鍵詞一般在3-4個音節(jié)，例如“嘿，siri”，“你好，nomi”，“你好，斑馬”，“小度小度”等，這種算法對于準(zhǔn)確識別喚醒詞要求較高；而一旦誤識別就可能錯誤地啟動電子設(shè)備，將其從休眠狀態(tài)喚醒至工作狀態(tài)，進(jìn)而甚至開始播放音樂、天氣信息或電子設(shè)備的人工智能語音，雖然不至于有嚴(yán)重后果，但可能使得用戶使用體驗顯著降低。

發(fā)明內(nèi)容

本發(fā)明的目的在于，提供一種能夠更準(zhǔn)確判定用戶的操作意圖，從而避免不良用戶體驗的語音識別方法。

為實現(xiàn)上述目的，本發(fā)明提供一種技術(shù)方案如下：

一種用于智能設(shè)備的語音識別方法，包括如下步驟：a)、采集第一音頻數(shù)據(jù)，并從中提取至少一個語音詞；b)、基于語音詞進(jìn)行喚醒識別，以確定是否喚醒智能設(shè)備；c)、基于智能設(shè)備的喚醒而采集第二音頻數(shù)據(jù)，并從中提取至少一個三音素；d)、基于每個三音素相應(yīng)的后驗概率進(jìn)行語音識別；以及e)、基于語音識別的結(jié)果進(jìn)行意圖分析。

優(yōu)選地，喚醒識別包括：通過前向計算來確定每個語音詞以及靜音態(tài)所對應(yīng)的后驗概率；利用有限狀態(tài)轉(zhuǎn)換器來處理各語音詞和靜音態(tài)所對應(yīng)的后驗概率，以確定是否喚醒智能設(shè)備。

優(yōu)選地，步驟c)包括：利用語音端點檢測模塊檢測第二音頻數(shù)據(jù)，以確定第二音頻數(shù)據(jù)對應(yīng)的語音的起始點和結(jié)束點；對在起始點和結(jié)束點之間的音頻數(shù)據(jù)進(jìn)行音素提取，以獲得至少一個三音素。

優(yōu)選地，意圖分析包括：確定語音識別的結(jié)果與智能設(shè)備的感興趣語料庫之間的關(guān)聯(lián)程度。

本發(fā)明還提供一種智能設(shè)備，配置成對語音進(jìn)行識別，智能設(shè)備包括：音頻采集單元，用于采集音頻數(shù)據(jù)，音頻數(shù)據(jù)包括第一音頻數(shù)據(jù)以及第二音頻數(shù)據(jù)；其中，第二音頻數(shù)據(jù)在智能設(shè)備被喚醒之后采集；語音詞提取單元，與音頻采集單元耦合，以從第一音頻數(shù)據(jù)中提取至少一個語音詞，喚醒識別單元，與語音詞提取單元耦合，以基于語音詞進(jìn)行喚醒識別，以確定是否喚醒智能設(shè)備;音素提取單元，與音頻采集單元耦合，以從第二音頻數(shù)據(jù)中提取至少一個三音素；語音識別單元，與音素提取單元耦合，以基于每個三音素相應(yīng)的后驗概率進(jìn)行語音識別；以及意圖分析單元，與語音識別單元耦合，以基于語音識別的結(jié)果進(jìn)行意圖分析。

本發(fā)明提供的語音識別方法，引入了喚醒識別以及意圖分析兩個相互銜接而又彼此獨立的步驟，可以有效避免智能設(shè)備的誤啟動、誤響應(yīng)，還能夠更準(zhǔn)確地判明用戶意圖以進(jìn)行智能響應(yīng)，有利于提高用戶的使用體驗。另外提供的智能設(shè)備在判明用戶真實意圖方面顯著優(yōu)于現(xiàn)有的智能設(shè)備，在防止自身誤響應(yīng)的同時，還可以節(jié)省電能。

附圖說明

圖1示出本發(fā)明第一實施例提供的語音識別方法的流程示意圖。

圖2示出本發(fā)明第二實施例提供的智能設(shè)備的模塊結(jié)構(gòu)示意圖。

圖3示出本發(fā)明第三實施例提供的用于語音識別的分布式系統(tǒng)的模塊結(jié)構(gòu)示意圖。

具體實施方式

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蔚來汽車有限公司，未經(jīng)蔚來汽車有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810877097.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】