[發(fā)明專利]語音識別方法及裝置有效

申請?zhí)枺?/td>	201810541713.7	申請日：	2018-05-30
公開（公告）號：	CN108831459B	公開（公告）日：	2021-01-05
發(fā)明（設(shè)計）人：	張冉	申請（專利權(quán)）人：	出門問問信息科技有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/26
代理公司：	北京睿派知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11597	代理人：	劉鋒
地址：	100094 北京市海淀區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音識別方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實施例公開了一種語音識別方法及裝置，涉及智能語音識別技術(shù)領(lǐng)域，本發(fā)明實施例的一個目的在于解決現(xiàn)有技術(shù)中存在誤識別指令詞的問題。本發(fā)明實施例的方法主要包括：在確定播放語音的文本中包含相似詞時，獲取所述相似詞對應(yīng)的播放時間段，所述相似詞為與智能終端的預(yù)設(shè)的指令詞發(fā)音相似的詞；在所述播放時間段內(nèi)提高所述智能終端的識別閾值；在所述智能終端計算出所述播放時間段內(nèi)接收的聲音為指令詞的概率高于提高后的識別閾值時，確定所述聲音為指令詞。本發(fā)明實施例主要適用于識別指令詞的場景中。

技術(shù)領(lǐng)域

本發(fā)明實施例涉及智能語音識別技術(shù)領(lǐng)域，尤其涉及一種語音識別方法及裝置。

背景技術(shù)

語音識別技術(shù)是通過人機交互，讓設(shè)備終端通過識別和理解把用戶的語音轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的智能技術(shù)。語音發(fā)出指令相對于手動輸入信息，大大增加了用戶操作的便利性。故而，利用語音代替手動輸入和設(shè)備終端進行交流，是未來智能終端發(fā)展的趨勢。

當(dāng)前的智能可穿戴設(shè)備、移動終端、智能音響等智能終端都具有語音識別功能，包括智能終端處于待機狀態(tài)下，用戶通過說出對應(yīng)的指令詞來喚醒智能終端；或智能終端處于工作狀態(tài)下，用戶通過說出對應(yīng)的指令詞來控制智能終端執(zhí)行對應(yīng)的操作。因此可以看出，在智能終端通過語音識別用戶下達的命令的過程中，較為重要的一項技術(shù)就是判斷接收到的聲音中是否包含了指令詞。現(xiàn)有的語音識別技術(shù)是對采集到的聲音是否為指令詞進行概率計算，當(dāng)確定當(dāng)前的聲音是指令詞的概率大于預(yù)置的閾值時，即執(zhí)行相應(yīng)的指令。例如，設(shè)置智能終端在音樂播放模式下，切換下一播放音樂的指令詞為“下一首”，當(dāng)用戶發(fā)出“下一首”這一指令詞后，智能終端就會執(zhí)行下一首音樂切換操作。智能終端的識別指令詞的具體方法為：在接收到聲音時，計算當(dāng)前聲音為指令詞的概率；當(dāng)計算出的概率大于識別閾值時，即判斷該聲音為指令詞，進而執(zhí)行對應(yīng)的操作。而當(dāng)該識別閾值被設(shè)置為一個數(shù)值較大的值時，智能終端的拒識率會就提高，該拒識率指的是用戶說出指令詞，但智能終端未判斷其為指令詞，進而拒絕執(zhí)行操作。而反之當(dāng)該識別閥值被設(shè)置為一個數(shù)值較小的值時，智能終端的誤識別率就會提高。即由于智能終端自身識別算法的錯誤判斷，會造成該智能終端對指令詞的誤識別，即在用戶沒有說出指令詞時，進行了誤操作，進而給用戶帶來較為糟糕的體驗。因此，識別閾值的設(shè)置十分關(guān)鍵，在設(shè)置智能終端的識別閾值之前，需要錄制大量不同發(fā)音的指令詞數(shù)據(jù)融入訓(xùn)練語料中，并對訓(xùn)練語料中的音素進行標記，再通過機器學(xué)習(xí)來訓(xùn)練語音識別模型。通過訓(xùn)練不斷調(diào)整識別閾值，最終獲取最優(yōu)的數(shù)值，再將該語音識別模型部署到智能終端中，從而智能終端的誤識別率和拒識率都維持在一個較低的水平。

由此可知，現(xiàn)有技術(shù)僅僅是將智能終端的識別閾值調(diào)整在一個能夠均衡誤識別率和拒識率的數(shù)值上，因此會增加誤識別指令詞的概率，進而給用戶帶來的不良體驗。

發(fā)明內(nèi)容

鑒于上述問題，本發(fā)明實施例提供一種語音識別方法及裝置，本發(fā)明實施例的一個目的在于解決現(xiàn)有技術(shù)中存在誤識別指令詞的問題。

為了解決上述問題，本發(fā)明實施例主要提供如下技術(shù)方案：

第一方面，本發(fā)明實施例提供了一種語音識別方法，該方法包括：

在確定播放語音的文本中包含相似詞時，獲取所述相似詞對應(yīng)的播放時間段，所述相似詞為與智能終端的預(yù)設(shè)的指令詞發(fā)音相似的詞；

在所述播放時間段內(nèi)提高所述智能終端的識別閾值；

在所述智能終端計算出所述播放時間段內(nèi)接收的聲音為指令詞的概率高于提高后的識別閾值時，確定所述聲音為指令詞。

第二方面，本發(fā)明實施例還提供了一種語音識別裝置，該裝置包括：

獲取單元，在確定播放語音的文本中包含相似詞時，獲取所述相似詞對應(yīng)的播放時間段，所述相似詞為與智能終端的預(yù)設(shè)的指令詞發(fā)音相似的詞；

提高單元，用于在所述播放時間段內(nèi)提高所述智能終端的識別閾值；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于出門問問信息科技有限公司，未經(jīng)出門問問信息科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810541713.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】