[發(fā)明專利]語音識別方法及裝置有效
| 申請?zhí)枺?/td> | 201810541713.7 | 申請日: | 2018-05-30 |
| 公開(公告)號: | CN108831459B | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計)人: | 張冉 | 申請(專利權(quán))人: | 出門問問信息科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26 |
| 代理公司: | 北京睿派知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100094 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 | ||
本發(fā)明實施例公開了一種語音識別方法及裝置,涉及智能語音識別技術(shù)領(lǐng)域,本發(fā)明實施例的一個目的在于解決現(xiàn)有技術(shù)中存在誤識別指令詞的問題。本發(fā)明實施例的方法主要包括:在確定播放語音的文本中包含相似詞時,獲取所述相似詞對應(yīng)的播放時間段,所述相似詞為與智能終端的預(yù)設(shè)的指令詞發(fā)音相似的詞;在所述播放時間段內(nèi)提高所述智能終端的識別閾值;在所述智能終端計算出所述播放時間段內(nèi)接收的聲音為指令詞的概率高于提高后的識別閾值時,確定所述聲音為指令詞。本發(fā)明實施例主要適用于識別指令詞的場景中。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及智能語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別方法及裝置。
背景技術(shù)
語音識別技術(shù)是通過人機交互,讓設(shè)備終端通過識別和理解把用戶的語音轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的智能技術(shù)。語音發(fā)出指令相對于手動輸入信息,大大增加了用戶操作的便利性。故而,利用語音代替手動輸入和設(shè)備終端進行交流,是未來智能終端發(fā)展的趨勢。
當(dāng)前的智能可穿戴設(shè)備、移動終端、智能音響等智能終端都具有語音識別功能,包括智能終端處于待機狀態(tài)下,用戶通過說出對應(yīng)的指令詞來喚醒智能終端;或智能終端處于工作狀態(tài)下,用戶通過說出對應(yīng)的指令詞來控制智能終端執(zhí)行對應(yīng)的操作。因此可以看出,在智能終端通過語音識別用戶下達的命令的過程中,較為重要的一項技術(shù)就是判斷接收到的聲音中是否包含了指令詞。現(xiàn)有的語音識別技術(shù)是對采集到的聲音是否為指令詞進行概率計算,當(dāng)確定當(dāng)前的聲音是指令詞的概率大于預(yù)置的閾值時,即執(zhí)行相應(yīng)的指令。例如,設(shè)置智能終端在音樂播放模式下,切換下一播放音樂的指令詞為“下一首”,當(dāng)用戶發(fā)出“下一首”這一指令詞后,智能終端就會執(zhí)行下一首音樂切換操作。智能終端的識別指令詞的具體方法為:在接收到聲音時,計算當(dāng)前聲音為指令詞的概率;當(dāng)計算出的概率大于識別閾值時,即判斷該聲音為指令詞,進而執(zhí)行對應(yīng)的操作。而當(dāng)該識別閾值被設(shè)置為一個數(shù)值較大的值時,智能終端的拒識率會就提高,該拒識率指的是用戶說出指令詞,但智能終端未判斷其為指令詞,進而拒絕執(zhí)行操作。而反之當(dāng)該識別閥值被設(shè)置為一個數(shù)值較小的值時,智能終端的誤識別率就會提高。即由于智能終端自身識別算法的錯誤判斷,會造成該智能終端對指令詞的誤識別,即在用戶沒有說出指令詞時,進行了誤操作,進而給用戶帶來較為糟糕的體驗。因此,識別閾值的設(shè)置十分關(guān)鍵,在設(shè)置智能終端的識別閾值之前,需要錄制大量不同發(fā)音的指令詞數(shù)據(jù)融入訓(xùn)練語料中,并對訓(xùn)練語料中的音素進行標記,再通過機器學(xué)習(xí)來訓(xùn)練語音識別模型。通過訓(xùn)練不斷調(diào)整識別閾值,最終獲取最優(yōu)的數(shù)值,再將該語音識別模型部署到智能終端中,從而智能終端的誤識別率和拒識率都維持在一個較低的水平。
由此可知,現(xiàn)有技術(shù)僅僅是將智能終端的識別閾值調(diào)整在一個能夠均衡誤識別率和拒識率的數(shù)值上,因此會增加誤識別指令詞的概率,進而給用戶帶來的不良體驗。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明實施例提供一種語音識別方法及裝置,本發(fā)明實施例的一個目的在于解決現(xiàn)有技術(shù)中存在誤識別指令詞的問題。
為了解決上述問題,本發(fā)明實施例主要提供如下技術(shù)方案:
第一方面,本發(fā)明實施例提供了一種語音識別方法,該方法包括:
在確定播放語音的文本中包含相似詞時,獲取所述相似詞對應(yīng)的播放時間段,所述相似詞為與智能終端的預(yù)設(shè)的指令詞發(fā)音相似的詞;
在所述播放時間段內(nèi)提高所述智能終端的識別閾值;
在所述智能終端計算出所述播放時間段內(nèi)接收的聲音為指令詞的概率高于提高后的識別閾值時,確定所述聲音為指令詞。
第二方面,本發(fā)明實施例還提供了一種語音識別裝置,該裝置包括:
獲取單元,在確定播放語音的文本中包含相似詞時,獲取所述相似詞對應(yīng)的播放時間段,所述相似詞為與智能終端的預(yù)設(shè)的指令詞發(fā)音相似的詞;
提高單元,用于在所述播放時間段內(nèi)提高所述智能終端的識別閾值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于出門問問信息科技有限公司,未經(jīng)出門問問信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810541713.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





