[發(fā)明專利]語音識別方法及智能設(shè)備在審
| 申請?zhí)枺?/td> | 201810877097.2 | 申請日: | 2018-08-03 |
| 公開(公告)號: | CN110808050A | 公開(公告)日: | 2020-02-18 |
| 發(fā)明(設(shè)計)人: | 孫玨 | 申請(專利權(quán))人: | 蔚來汽車有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/02;G06F40/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 王星;陳嵐 |
| 地址: | 中國香港中環(huán)*** | 國省代碼: | 香港;81 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 智能 設(shè)備 | ||
本發(fā)明涉及一種用于智能設(shè)備的語音識別方法,包括如下步驟:采集第一音頻數(shù)據(jù),并從中提取至少一個語音詞;基于語音詞進(jìn)行喚醒識別,以確定是否喚醒智能設(shè)備;基于智能設(shè)備的喚醒而采集第二音頻數(shù)據(jù),并從中提取至少一個三音素;基于每個三音素相應(yīng)的后驗概率進(jìn)行語音識別;基于語音識別的結(jié)果進(jìn)行意圖分析以確定智能設(shè)備是否進(jìn)行響應(yīng)。其可以有效避免智能設(shè)備的誤啟動、誤響應(yīng),還能夠更準(zhǔn)確地判明用戶意圖以進(jìn)行智能響應(yīng),有利于提高用戶的使用體驗。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,更具體地說,涉及一種語音識別方法及智能設(shè)備。
背景技術(shù)
具備語音喚醒功能的電子設(shè)備已逐漸進(jìn)入家庭中,這得益于人工智能的快速發(fā)展以及語音識別技術(shù)的成熟。
經(jīng)統(tǒng)計發(fā)現(xiàn),基于2個音節(jié)的喚醒識別的誤喚醒率明顯高于基于3或4個音節(jié)的喚醒識別。可以理解,喚醒詞越短,誤識別率越高。因此,在目前常用的一些語音喚醒服務(wù)中,算法設(shè)定的喚醒關(guān)鍵詞一般在3-4個音節(jié),例如“嘿,siri”,“你好,nomi”,“你好,斑馬”,“小度小度”等,這種算法對于準(zhǔn)確識別喚醒詞要求較高;而一旦誤識別就可能錯誤地啟動電子設(shè)備,將其從休眠狀態(tài)喚醒至工作狀態(tài),進(jìn)而甚至開始播放音樂、天氣信息或電子設(shè)備的人工智能語音,雖然不至于有嚴(yán)重后果,但可能使得用戶使用體驗顯著降低。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種能夠更準(zhǔn)確判定用戶的操作意圖,從而避免不良用戶體驗的語音識別方法。
為實現(xiàn)上述目的,本發(fā)明提供一種技術(shù)方案如下:
一種用于智能設(shè)備的語音識別方法,包括如下步驟:a)、采集第一音頻數(shù)據(jù),并從中提取至少一個語音詞;b)、基于語音詞進(jìn)行喚醒識別,以確定是否喚醒智能設(shè)備;c)、基于智能設(shè)備的喚醒而采集第二音頻數(shù)據(jù),并從中提取至少一個三音素;d)、基于每個三音素相應(yīng)的后驗概率進(jìn)行語音識別;以及e)、基于語音識別的結(jié)果進(jìn)行意圖分析。
優(yōu)選地,喚醒識別包括:通過前向計算來確定每個語音詞以及靜音態(tài)所對應(yīng)的后驗概率;利用有限狀態(tài)轉(zhuǎn)換器來處理各語音詞和靜音態(tài)所對應(yīng)的后驗概率,以確定是否喚醒智能設(shè)備。
優(yōu)選地,步驟c)包括:利用語音端點檢測模塊檢測第二音頻數(shù)據(jù),以確定第二音頻數(shù)據(jù)對應(yīng)的語音的起始點和結(jié)束點;對在起始點和結(jié)束點之間的音頻數(shù)據(jù)進(jìn)行音素提取,以獲得至少一個三音素。
優(yōu)選地,意圖分析包括:確定語音識別的結(jié)果與智能設(shè)備的感興趣語料庫之間的關(guān)聯(lián)程度。
本發(fā)明還提供一種智能設(shè)備,配置成對語音進(jìn)行識別,智能設(shè)備包括:音頻采集單元,用于采集音頻數(shù)據(jù),音頻數(shù)據(jù)包括第一音頻數(shù)據(jù)以及第二音頻數(shù)據(jù);其中,第二音頻數(shù)據(jù)在智能設(shè)備被喚醒之后采集;語音詞提取單元,與音頻采集單元耦合,以從第一音頻數(shù)據(jù)中提取至少一個語音詞,喚醒識別單元,與語音詞提取單元耦合,以基于語音詞進(jìn)行喚醒識別,以確定是否喚醒智能設(shè)備;音素提取單元,與音頻采集單元耦合,以從第二音頻數(shù)據(jù)中提取至少一個三音素;語音識別單元,與音素提取單元耦合,以基于每個三音素相應(yīng)的后驗概率進(jìn)行語音識別;以及意圖分析單元,與語音識別單元耦合,以基于語音識別的結(jié)果進(jìn)行意圖分析。
本發(fā)明提供的語音識別方法,引入了喚醒識別以及意圖分析兩個相互銜接而又彼此獨立的步驟,可以有效避免智能設(shè)備的誤啟動、誤響應(yīng),還能夠更準(zhǔn)確地判明用戶意圖以進(jìn)行智能響應(yīng),有利于提高用戶的使用體驗。另外提供的智能設(shè)備在判明用戶真實意圖方面顯著優(yōu)于現(xiàn)有的智能設(shè)備,在防止自身誤響應(yīng)的同時,還可以節(jié)省電能。
附圖說明
圖1示出本發(fā)明第一實施例提供的語音識別方法的流程示意圖。
圖2示出本發(fā)明第二實施例提供的智能設(shè)備的模塊結(jié)構(gòu)示意圖。
圖3示出本發(fā)明第三實施例提供的用于語音識別的分布式系統(tǒng)的模塊結(jié)構(gòu)示意圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蔚來汽車有限公司,未經(jīng)蔚來汽車有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810877097.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





