[發明專利]喉音識別方法及裝置在審
| 申請號: | 201310152543.0 | 申請日: | 2013-04-27 |
| 公開(公告)號: | CN104123930A | 公開(公告)日: | 2014-10-29 |
| 發明(設計)人: | 何秀強;張弓 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/26 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 喉音 識別 方法 裝置 | ||
技術領域
本發明涉及通信技術領域,特別涉及一種喉音識別方法及裝置。
背景技術
隨著語音識別技術發展,人們能夠通過自然語言與機器進行直接通信,提高了人機交互的效率和體驗。例如,當前的智能終端上已經出現了通過語音控制實現撥打和接聽電話、網上搜索、定向導航等一系列的功能。這些功能對于駕駛員,視障人群以及老年人等一些特定人群是非常適用的,為其提供了很大的便利。
現有技術中至少存在如下問題:語音識別的人機交互方式雖然提供了一定的便利,但其適用場景有很大的局限性,例如,當用戶處于比較嘈雜的環境時,語音識別無法做到準確識別用戶的指令;或者當用戶處于公共場所需要談論涉及隱私的內容時,現有的語音識別無法對用戶的隱私進行保護;或者當用戶無法發出聲音時,現有的語音識別無法識別用戶指令。
發明內容
提供一種喉音識別方法及裝置,能夠解決語音識別的人機交互方式的局限性問題,為用戶提供具有更高準確性和更寬適用性的人機交互方式,提高用戶體驗。
第一方面,提供一種喉音識別方法,包括:
采集用戶的喉音生物信號;
提取采集到的所述喉音生物信號的特征量;
根據識別模型和所述特征量對采集到的所述喉音生物信號進行識別,輸出與所述喉音生物信號對應的文本信息。
在第一種可能的實現方式中,所述提取采集到的所述喉音生物信號的特征量包括:提取采集到的所述喉音生物信號中的時域統計量和頻域統計量,所述時域統計量和頻域統計量包括:梅爾頻率倒譜系數MFCC、波動模式FP和譜直方圖SH。
進一步的,在所述采集用戶的喉音生物信號之前,所述方法還包括:建立所述識別模型。
進一步的,在所述輸出與所述喉音生物信號對應的文本信息之后,所述方法還包括:如果輸出的所述文本信息與所述喉音生物信號對應錯誤,接收用戶發出的修正指示;根據所述修正指示輸出與所述喉音生物信號對應的文本信息,并對所述識別模型進行修正。
結合第一方面或第一方面的第一種可能的實現方式,在第二種可能的實現方式中,在所述輸出與所述喉音生物信號對應的文本信息之后,所述方法還包括:根據所述文本信息的內容執行與所述內容相對應的操作指令。
具體的,所述建立所述識別模型包括:為采集的喉音生物信號標注對應的文本信息;將所述喉音生物信號的特征量與所述文本信息進行關聯;根據所述特征量與所述文本信息的關聯結果建立訓練樣本庫;使用機器學習模型對所述訓練樣本庫進行訓練,獲得所述識別模型。
進一步的,所述對所述識別模型進行修正包括:使用所述根據所述修正指示輸出的與所述喉音生物信號對應的文本信息替換所述識別模型中的錯誤文本信息。
結合第一方面的第二種可能的實現方式,在第三種可能的實現方式中,其中,所述機器學習模型包括:高斯混合模型GMM、隱式馬爾可夫模型HMM、貝葉斯模型BM或貝葉斯高斯過程BGP。
其中,所述根據識別模型和所述特征量對采集到的所述喉音生物信號進行識別,輸出與所述喉音生物信號對應的文本信息包括:將所述特征量與所述訓練樣本庫中的數據進行匹配;根據匹配近似度,輸出相似度最高的一個或多個文本信息的識別結果。
第二方面,提供一種喉音識別裝置,包括:
采集單元,用于采集用戶的喉音生物信號;
提取單元,用于提取所述采集單元采集到的所述喉音生物信號的特征量;
識別輸出單元,用于根據識別模型和所述提取單元提取的所述特征量對所述采集單元采集到的所述喉音生物信號進行識別,輸出與所述喉音生物信號對應的文本信息。
在第一種可能的實現方式中,所述提取單元具體用于:提取采集到的所述喉音生物信號中的時域統計量和頻域統計量,所述時域統計量和頻域統計量包括:梅爾頻率倒譜系數MFCC、波動模式FP和譜直方圖SH。
進一步的,所述裝置還包括:模型建立單元,用于建立所述識別模型。
進一步的,所述裝置還包括:接收單元,用于當輸出的所述文本信息與所述喉音生物信號對應錯誤時,接收用戶發出的修正指示;處理單元,用于根據所述修正指示輸出與所述喉音生物信號對應的文本信息,并對所述識別模型進行修正。
結合第二方面或第二方面的第一種可能的實現方式,在第二種可能的實現方式中,所述裝置還包括:執行單元,用于根據所述文本信息的內容執行與所述內容相對應的操作指令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310152543.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種RGB交叉混色顯示屏
- 下一篇:基于電子墨水顯示屏的電腦顯示器





