[發明專利]一種語音識別方法及系統在審

申請號：	201410168436.1	申請日：	2014-04-24
公開（公告）號：	CN103971681A	公開（公告）日：	2014-08-06
發明（設計）人：	穆向禹;彭守業;劉思成;賈磊	申請（專利權）人：	百度在線網絡技術(北京)有限公司
主分類號：	G10L15/20	分類號：	G10L15/20;G10L21/02
代理公司：	北京鴻德海業知識產權代理事務所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音識別方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

【技術領域】

本發明涉及語音識別技術，尤其涉及一種語音識別方法及系統。

【背景技術】

語音識別技術在近些年取得顯著進步，語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。例如，語音識別技術常應用于導航技術中，由于用戶在駕駛過程中不方便手動操控導航客戶端，因此，語音輸入是一種很好的交互方式；導航客戶端在監聽狀態下，可以對用戶的語音指令進行監聽，并對語音指令進行語音識別處理，以獲得語音識別結果，當語音識別結果滿足喚醒條件時，喚醒導航客戶端的語音導航功能，向用戶提供音頻形式的路況信息。

然而，導航客戶端有時需要頻繁的播放路況信息，使得導航客戶端監聽到的用戶的語音指令中，往往摻雜有導航客戶端自身播放的音頻數據，使得用戶的語音指令不能有效喚醒導航客戶端，導致喚醒導航客戶端的失敗概率較高。

【發明內容】

有鑒于此，本發明實施例提供了一種語音識別方法及系統，可以實現提高語音識別系統中語音喚醒的成功率。

本發明實施例提供了一種語音識別方法，包括：

采集第一音頻數據；

利用第一模型和第二模型，對所述第一音頻數據進行語音識別，以獲得語音識別結果；

其中，所述第一模型用于識別所述第一音頻數據中所包含的客戶端所播放的第二音頻數據，所述第二模型用于識別所述第一音頻數據中所包含的除了所述客戶端所播放的第二音頻數據之外的第三音頻數據。

上述方法中，所述利用第一模型和第二模型，對所述第一音頻數據進行語音識別，以獲得語音識別結果之前，所述方法還包括：

獲得所述客戶端所播放的第二音頻數據所對應的文本信息；

對所述文本信息進行切分處理，以獲得M個字符，所述M為大于或者等于2的整數；

對所述M個字符進行聚類處理或者篩選處理，以獲得N個字符，所述N為小于或者等于M的正整數；

依據所述N個字符，獲得所述第一模型。

上述方法中，所述第三音頻數據為用戶的語音指令；所述第一模型為語音拒識模型，第二模型為語音喚醒模型。

上述方法中，所述利用第一模型和第二模型，對所述第一音頻數據進行語音識別，以獲得語音識別結果，包括：

對采集的所述第一音頻數據進行回聲消除處理；

利用所述第一模型和所述第二模型，對回聲消除處理后獲得的所述第一音頻數據進行語音識別，以獲得所述語音識別結果。

上述方法中，所述對采集的所述第一音頻數據進行回聲消除處理，包括：

獲得所述第三音頻數據相對于所述第二音頻數據的起始位置；

將所述第三音頻數據轉換為第一頻域數據，將所述起始位置之后的所述第二音頻數據轉換為第二頻域數據；

依據所述第二頻域數據，對所述第一頻域數據進行濾波處理。

本發明實施例還提供了一種語音識別系統，包括：

數據輸入單元，用于采集第一音頻數據；

數據識別單元，用于利用第一模型和第二模型，對所述第一音頻數據進行語音識別，以獲得語音識別結果；

上述系統中，所述系統還包括：

模型生成單元，用于獲得所述客戶端所播放的第二音頻數據所對應的文本信息；對所述文本信息進行切分處理，以獲得M個字符，所述M為大于或者等于2的整數；對所述M個字符進行聚類處理或者篩選處理，以獲得N個字符，所述N為小于或者等于M的正整數；依據所述N個字符，獲得所述第一模型。

上述系統中，所述第三音頻數據為用戶的語音指令；所述第一模型為語音拒識模型，第二模型為語音喚醒模型。

上述系統中，所述數據識別單元具體用于：

對采集的所述第一音頻數據進行回聲消除處理；

利用所述第一模型和所述第二模型，對回聲消除處理后獲得的所述第一音頻數據進行語音識別，以獲得所述語音識別結果。

上述系統中，所述數據識別單元對采集的所述第一音頻數據進行回聲消除處理，具體包括：

獲得所述第三音頻數據相對于所述第二音頻數據的起始位置；

將所述第三音頻數據轉換為第一頻域數據，將所述起始位置之后的所述第二音頻數據轉換為第二頻域數據；

依據所述第二頻域數據，對所述第一頻域數據進行濾波處理。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司，未經百度在線網絡技術(北京)有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410168436.1/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種應用于雨水管網的陽臺廢水、初期雨水凈化器
下一篇：一種冷拔軋鋼污水回收處理系統

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】