[發明專利]語音識別方法、裝置及終端有效
| 申請號: | 201610063803.0 | 申請日: | 2016-01-29 |
| 公開(公告)號: | CN105679321B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 黎小松;傅文治;胡績強;汪平煒 | 申請(專利權)人: | 宇龍計算機通信科技(深圳)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 梁軍 |
| 地址: | 518057 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 終端 | ||
本發明公開了一種語音識別方法、裝置及終端,用以提高現有語音識別方式的抗噪性能。所述方法包括:獲取一幀語音信號,從所述語音信號中提取d維MFCC參數;對d維所述MFCC參數進行倒譜計算,獲得d維倒譜MFCC參數;根據預設的迭代次數對各維所述倒譜MFCC參數進行迭代處理,獲得d維迭代倒譜MFCC參數;基于d維所述迭代倒譜MFCC參數,對所述語音信號進行識別。
技術領域
本發明涉及電子領域,特別是涉及一種語音識別方法、裝置及終端。
背景技術
語音特征提取在語音識別過程中是非常關鍵的步驟,目前語音識別算法主要是在信號空間對噪聲信號進行預處理(比如濾波),以得到更為純凈的語音信號,但是語音識別在嘈雜環境下識別率仍不理想;因此如何能準確有效地提取出反映語音特征的特征參數是個重要的研究課題;特征參數的魯棒性和精確性直接影響到語音識別的準確率;同時,特征提取對語音識別系統的實時性也有著很大的影響。
目前,特征參數提取方法主要有基音、共振峰、線性預測編碼(Linear PredictiveCoding,LPC)、線性預測倒譜系數(LPCC)和梅爾倒譜系數(Mel-Frequency CepstralCoefficients,MFCC)等。LPC和LPCC沒有考慮到人耳的聽覺特性,沒有采用非線性的頻率變換,不能精確地描述說話人的特征。MFCC參數模擬了人耳對語音不同頻譜的感知能力,考慮了人耳的聽覺特性,MFCC特征性能較好,計算復雜度低,具有良好的識別性能和魯棒性;但傳統的MFCC特征參數頻譜能量泄露嚴重和描述語音信號的共振峰特性不夠,因此傳統的基于MFCC特征參數進行語音識別過程冗余性較高,導致低信噪比的語音識別系統魯棒性較差和識別率下降明顯。
發明內容
本發明的目的在于提供一種語音識別方法、裝置及終端,用以提高現有語音識別方式的抗噪性能。
根據本發明的一個方面,本發明提供一種語音識別方法,其特征在于,包括:
獲取一幀語音信號,從所述語音信號中提取d維MFCC參數;
對d維所述MFCC參數進行倒譜計算,獲得d維倒譜MFCC參數;
根據預設的迭代次數對各維所述倒譜MFCC參數進行迭代處理,獲得d維迭代倒譜MFCC參數;
基于d維所述迭代倒譜MFCC參數,對所述語音信號進行識別。
進一步,基于d維所述迭代倒譜MFCC參數,對所述語音信號進行識別的步驟,具體包括:
對d維所述迭代倒譜MFCC參數采用差分方式獲得d個特征補償值;
根據d個所述特征補償值,對d維所述迭代倒譜MFCC參數進行特征補償;
基于經過特征補償的所述迭代倒譜MFCC參數,對所述語音信號進行識別。
進一步,基于經過特征補償的所述迭代倒譜MFCC參數,對所述語音信號進行識別的步驟,具體包括:
對經過特征補償的所述迭代倒譜MFCC參數,采用主成分分析方式進行降維處理;
基于降維處理后的所述迭代倒譜MFCC參數,對所述語音信號進行識別。
進一步,采用下述公式進行倒譜計算,獲得d維所述倒譜MFCC參數:
其中,C(n)為第n維MFCC參數;C′(n)為第n維倒譜MFCC參數;d為一幀語音信號提取的MFCC參數的維數。
進一步,采用下述公式進行迭代處理,獲得d維所述迭代倒譜MFCC參數:
其中,i為迭代次數,α為扭曲因子,C0′(n+1)為迭代初值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宇龍計算機通信科技(深圳)有限公司,未經宇龍計算機通信科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610063803.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種聲紋識別相似度評分的方法和裝置
- 下一篇:移動終端和降噪方法





