[發明專利]一種語音識別方法及裝置在審

申請號：	201310717335.0	申請日：	2013-12-23
公開（公告）號：	CN103714812A	公開（公告）日：	2014-04-09
發明（設計）人：	蘇丹	申請（專利權）人：	百度在線網絡技術（北京）有限公司
主分類號：	G10L15/07	分類號：	G10L15/07;G10L15/26
代理公司：	北京品源專利代理有限公司 11332	代理人：	胡彬
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音識別方法，其特征在于，包括：

獲取語音數據；

根據所述語音數據的屬性信息自動確定所述語音數據的類型；

選擇與所述語音數據的類型相匹配的聲學模型進行語音識別。

2.如權利要求1所述的語音識別方法，其特征在于，所述獲取語音數據，包括：

開啟語音采集功能，對采集到的數據進行端點檢測；

在檢測到初始端點后，將采集到的數據作為語音數據。

3.如權利要求1所述的語音識別方法，其特征在于，所述根據所述語音數據的屬性信息自動確定所述語音數據的類型，包括：

提取所述語音數據的基頻分量；

根據所述基頻分量確定所述語音數據的類型。

4.如權利要求3所述的語音識別方法，其特征在于，所述提取所述語音數據的基頻分量包括：

將所述語音數據按預定時間長度分包，以形成至少一個語音數據包；

從全部或設定數量的所述語音數據包中提取語音數據的基頻分量。

5.如權利要求4所述的語音識別方法，其特征在于，所述從全部或設定數量的所述語音數據包中提取語音數據的基頻分量，包括：

選擇全部或設定數量的語音數據包；

對選擇的每個語音數據包分別進行分幀；

確定所述語音數據包中各幀語音數據的基頻分量；

根據所述語音數據包分幀的幀數及各幀語音數據的基頻分量，確定所述數據包中語音數據的基頻分量；

根據各語音數據包確定的基頻分量確定所述語音數據的基頻分量。

6.如權利要求5所述的語音識別方法，其特征在于，所述設定數量為第一個或前N個。

7.如權利要求4所述的語音識別方法，其特征在于，所述預定時間長度為500ms。

8.如權利要求3所述的語音識別方法，其特征在于，所述根據所述基頻分量確定所述語音數據包中語音數據的類型，包括：

確定所述基頻分量所屬的基頻分量范圍；

根據所述基頻分量范圍所對應的語音類型，確定語音數據的類型。

9.如權利要求8所述的語音識別方法，其特征在于，所述基頻分量范圍包括：基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍，基頻分量在300Hz-400Hz之間的第三范圍。

10.如權利要求1所述的語音識別方法，其特征在于，所述語音數據類型包括：男性語音數據、女性語音數據和兒童語音數據；以及與所述語音數據類型相匹配的聲學模型包括：男性聲學模型、女性聲學模型和兒童聲學模型。

11.一種語音識別裝置，其特征在于，包括：

獲取模塊，用于獲取語音數據；

確定模塊，用于根據所述語音數據的屬性信息自動確定所述語音數據的類型；

選擇模塊，用于選擇與所述語音數據的類型相匹配的聲學模型進行語音識別。

12.如權利要求11所述的語音識別裝置，其特征在于，所述獲取模塊包括：

端點檢測子模塊，用于開啟語音采集功能，對采集到的數據進行端點檢測；

語音采集子模塊，用于在檢測到初始端點后，將采集到的數據作為語音數據。

13.如權利要求11所述的語音識別裝置，其特征在于，所述確定模塊包括：

基頻提取子模塊，用于提取所述語音數據的基頻分量；

類型確定子模塊，用于根據所述基頻分量確定所述語音數據的類型。

14.如權利要求13所述的語音識別裝置，其特征在于，所述基頻提取子模塊包括：

形成數據包單元，用于將所述語音數據按預定時間長度分包，以形成至少一個語音數據包；

提取單元，用于從全部或設定數量的所述語音數據包中提取語音數據的基頻分量。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術（北京）有限公司，未經百度在線網絡技術（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310717335.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種冰箱
下一篇：一種蓄冷裝置及具有該蓄冷裝置的抽屜門冰箱

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】