[發明專利]一種語音識別方法及系統在審
| 申請號: | 201410168436.1 | 申請日: | 2014-04-24 |
| 公開(公告)號: | CN103971681A | 公開(公告)日: | 2014-08-06 |
| 發明(設計)人: | 穆向禹;彭守業;劉思成;賈磊 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L21/02 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 系統 | ||
1.一種語音識別方法,其特征在于,所述方法包括:
采集第一音頻數據;
利用第一模型和第二模型,對所述第一音頻數據進行語音識別,以獲得語音識別結果;
其中,所述第一模型用于識別所述第一音頻數據中所包含的客戶端所播放的第二音頻數據,所述第二模型用于識別所述第一音頻數據中所包含的除了所述客戶端所播放的第二音頻數據之外的第三音頻數據。
2.根據權利要求1所述的方法,其特征在于,所述利用第一模型和第二模型,對所述第一音頻數據進行語音識別,以獲得語音識別結果之前,所述方法還包括:
獲得所述客戶端所播放的第二音頻數據所對應的文本信息;
對所述文本信息進行切分處理,以獲得M個字符,所述M為大于或者等于2的整數;
對所述M個字符進行聚類處理或者篩選處理,以獲得N個字符,所述N為小于或者等于M的正整數;
依據所述N個字符,獲得所述第一模型。
3.根據權利要求1或2所述的方法,其特征在于,
所述第三音頻數據為用戶的語音指令;
所述第一模型為語音拒識模型,第二模型為語音喚醒模型。
4.根據權利要求1或2所述的方法,其特征在于,所述利用第一模型和第二模型,對所述第一音頻數據進行語音識別,以獲得語音識別結果,包括:
對采集的所述第一音頻數據進行回聲消除處理;
利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數據進行語音識別,以獲得所述語音識別結果。
5.根據權利要求4所述的方法,其特征在于,所述對采集的所述第一音頻數據進行回聲消除處理,包括:
獲得所述第三音頻數據相對于所述第二音頻數據的起始位置;
將所述第三音頻數據轉換為第一頻域數據,將所述起始位置之后的所述第二音頻數據轉換為第二頻域數據;
依據所述第二頻域數據,對所述第一頻域數據進行濾波處理。
6.一種語音識別系統,其特征在于,所述系統包括:
數據輸入單元,用于采集第一音頻數據;
數據識別單元,用于利用第一模型和第二模型,對所述第一音頻數據進行語音識別,以獲得語音識別結果;
其中,所述第一模型用于識別所述第一音頻數據中所包含的客戶端所播放的第二音頻數據,所述第二模型用于識別所述第一音頻數據中所包含的除了所述客戶端所播放的第二音頻數據之外的第三音頻數據。
7.根據權利要求6所述的系統,其特征在于,所述系統還包括:
模型生成單元,用于獲得所述客戶端所播放的第二音頻數據所對應的文本信息;對所述文本信息進行切分處理,以獲得M個字符,所述M為大于或者等于2的整數;對所述M個字符進行聚類處理或者篩選處理,以獲得N個字符,所述N為小于或者等于M的正整數;依據所述N個字符,獲得所述第一模型。
8.根據權利要求6或7所述的系統,其特征在于,
所述第三音頻數據為用戶的語音指令;
所述第一模型為語音拒識模型,第二模型為語音喚醒模型。
9.根據權利要求6或7所述的系統,其特征在于,所述數據識別單元具體用于:
對采集的所述第一音頻數據進行回聲消除處理;
利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數據進行語音識別,以獲得所述語音識別結果。
10.根據權利要求9所述的系統,其特征在于,所述數據識別單元對采集的所述第一音頻數據進行回聲消除處理,具體包括:
獲得所述第三音頻數據相對于所述第二音頻數據的起始位置;
將所述第三音頻數據轉換為第一頻域數據,將所述起始位置之后的所述第二音頻數據轉換為第二頻域數據;
依據所述第二頻域數據,對所述第一頻域數據進行濾波處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410168436.1/1.html,轉載請聲明來源鉆瓜專利網。





