[發明專利]一種語音識別方法及系統有效
| 申請號: | 201210227158.3 | 申請日: | 2012-06-30 |
| 公開(公告)號: | CN103514882B | 公開(公告)日: | 2017-11-10 |
| 發明(設計)人: | 賈磊 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 系統 | ||
【技術領域】
本發明涉及語音識別技術,特別涉及一種語音識別的方法及系統。
【背景技術】
隨著與移動終端相關的軟硬件技術的發展,移動終端變得越來越智能。通過語音命令對移動終端進行操作,是移動終端技術發展的方向,而要實現語音命令對移動終端的控制,其核心是要對用戶的語音命令進行正確識別,只有對用戶的語音命令進行正確識別,才能觸發移動終端執行相應的動作。現有技術中,移動終端的語音識別通常有兩種方法:
第一種方法,是在移動終端內置語音識別系統,當用戶對移動終端發出語音指令時,利用該內置系統對語音指令進行識別。這種方法能夠充分利用移動終端上保存的私人信息(例如通訊錄)實現語音識別,在進行語音撥號之類的語音操作時比較有效。但這種方式存在一個問題,即移動終端的計算能力有限,內置的語音識別系統難以對復雜的語音命令進行識別。例如移動終端上的網頁登錄,地圖操作,歌曲查詢,或者是信息搜索等功能中涉及到的語音識別,內置的語音識別系統就難以完成,并且由于移動終端的計算能力有限,內置的語音識別系統難以應用復雜的語音識別算法,也導致了現有技術的這種方法即使應用在語音撥號中,也存在識別精度低的缺陷。
第二種方法,是由移動終端獲取用戶的語音指令,然后將獲取到的語音指令發送至服務器,利用服務器預先建立的語音識別系統對語音指令識別,最終將識別結果返回至移動終端。這種方式可以充分利用服務器強大的計算能力,從而實現對復雜的語音指令進行識別的功能,其缺點在于,這種方式無法充分利用移動終端上存儲的私人信息,從而會影響到語音指令中與移動終端上存儲的私人信息有關的語音片段的識別精度。
【發明內容】
本發明所要解決的技術問題是提供一種語音識別的方法及系統,以實現充分利用服務器的計算資源,提高識別精度的目的。
本發明為解決技術問題而采用的技術方案是提供一種語音識別的系統,包括:客戶端模塊及服務器模塊,其中,所述客戶端模塊包括:語音采集單元,用于獲取用戶的語音指令;客戶端通訊單元,用于將所述語音指令發送至服務器模塊;所述服務器模塊包括:第一識別單元,用于利用指令模板集合及命名實體集合對所述語音指令進行初步識別,獲得初步識別結果,其中所述初步識別結果是含有未知變量信息的識別結果,所述未知變量是所述語音指令中與所述客戶端存儲的命名實體信息相關的語音片段;服務器通訊單元,用于將所述初步識別結果發送至所述客戶端模塊;所述客戶端模塊還包括:第二識別單元,用于利用所述客戶端存儲的命名實體信息對所述未知變量進行識別,以得到所述語音指令的完整識別結果。
根據本發明之一優選實施例,所述第一識別單元包括:第一解碼空間生成單元,用于預先將指令模板集合及命名實體集合分別編譯成兩個獨立的WFST網絡,以構成第一解碼空間;第一解碼單元,用于在接收到所述語音指令時,利用所述第一解碼空間對所述語音指令進行解碼,以確定所述語音指令所屬的指令模板,以及所述未知變量在所述語音指令中的起止時刻,并將所述語音指令所屬的指令模板及所述未知變量在所述語音指令中的起止時刻作為所述初步識別結果。
根據本發明之一優選實施例,所述第二識別單元包括:第二解碼空間生成單元,用于預先將所述客戶端存儲的命名實體信息編譯成WFST網絡,以構成第二解碼空間;第二解碼單元,用于在接收到所述初步識別結果時,根據所述未知變量在所述語音指令中的起止時刻,從所述語音指令中確定待識別的語音片段,并利用所述第二解碼空間對所述待識別的語音片段進行解碼,得到所述未知變量的識別結果。
根據本發明之一優選實施例,所述服務器模塊進一步包括:特征提取單元,用于從所述語音指令中提取與說話人相關的聲學特征;并且,所述服務器通訊單元進一步用于將所述與說話人相關的聲學特征發送至所述客戶端模塊。
根據本發明之一優選實施例,所述客戶端模塊進一步包括:聲學模型訓練單元,用于預先利用說話人語音樣本訓練與說話人相關的聲學模型;并且,所述第二解碼單元對所述待識別的語音片段進行解碼時,利用所述與說話人相關的聲學特征、所述第二解碼空間和所述與說話人相關的聲學模型對所述待識別的語音片段進行解碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210227158.3/2.html,轉載請聲明來源鉆瓜專利網。





