[發明專利]一種遠場語音識別方法在審
| 申請號: | 202110372848.7 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113096680A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 陳芒 | 申請(專利權)人: | 深圳市輕生活科技有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/18;G10L25/24;G10L15/26 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 吳金水 |
| 地址: | 518000 廣東省深圳市福田區福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 | ||
本發明公開了一種遠場語音識別方法,包括:獲取遠場語音信號;對所述遠場語音信號進行降噪預處理,獲得預處理后的遠場語音信號;將所述預處理后的遠場語音信號輸入至語音特征提取模型,基于所述語音特征提取模型獲取所述遠場語音信號對應的語音特征;所述語音特征提取模型是采用小波變換與梅爾倒譜系數相結合的方法實現語音特征提取,其中,所述小波變換采用局部能量計算原則;基于獲取的所述語音特征,采用聲學模型和語言模型匹配完成遠場語音識別。采用本發明提供的方案結合梅爾倒譜系數和小波變換的優點實現遠場語音信號的語音特征提取,采用聲學模型和語言模型匹配完成遠場語音識別,保證遠場語音信號識別的準確性和有效性。
技術領域
本發明涉及語音識別技術領域,具體涉及一種遠場語音識別方法。
背景技術
隨著人工智能技術的不斷發展,人們越來越致力于使機器聽懂人類的話語指令,并希望通過語音實現對機器的控制,從而極大的方便人們的生產和生活,在研究和探索語音識別技術過程中,針對語音識別的各個流程進行了各種嘗試和改造。作為一項人機交互的關鍵技術,語音識別在過去幾十年里取得了飛速的發展,應用于語音識別的遠場語音識別模型在算法和構建上也愈發成熟,但是,目前的遠場語音識別對環境的依賴性較強,距離較遠帶來的環境噪聲影響,也使得語音識別的準確性嚴重下降。
在遠場語音識別技術中,對語音信號的特征提取尤為重要,現有技術中常用的遠場語音識別是通過梅爾倒譜系數原理實現特征提取。梅爾倒譜系數是基于平穩信號的計算方法,但針對非平穩信號語音特征提取具有局限性,因此,亟需一種方案可以解決上述技術問題,從而保證遠場語音識別的準確性和有效性。
發明內容
本發明提供一種遠場語音識別方法,用以解決現有技術中在語音特征提取過程中針對非平穩信號語音特征提取具有局限性,從而造成的遠場語音識別的準確性和有效性降低的問題。
本發明提供一種遠場語音識別方法,該方法包括:
獲取遠場語音信號;
對所述遠場語音信號進行降噪預處理,獲得預處理后的遠場語音信號;
將所述預處理后的遠場語音信號輸入至語音特征提取模型,基于所述語音特征提取模型獲取所述遠場語音信號對應的語音特征;所述語音特征提取模型是采用小波變換與梅爾倒譜系數相結合的方法實現語音特征提取,其中,所述小波變換采用局部能量計算原則;
基于獲取的所述語音特征,采用聲學模型和語言模型匹配完成遠場語音識別。
可選的,所述語音特征提取模型的構建方法包括:
將所述遠場語音信號分幀處理;
將每一幀的遠場語音信號進行離散小波分解處理,獲得分解后的小波系數;
將所述小波系數做快速傅里葉變換,確定所有小波系數對應的若干個頻帶局部能量;
確定若干個頻帶局部能量分布,基于所述分布結合梅爾濾波器組確定梅爾倒譜系數;
基于所述梅爾倒譜系數確定動態特性的差分參數;
基于所述差分參數對語音特征的提取進行訓練,獲取語音特征。
可選的,所述確定所有小波系數對應的若干個頻帶局部能量,包括:
將遠場語音信號進行離散小波分解,分解為6層,形成7個頻帶能量;
將每個頻帶能量進行按照時間段劃分為若干個頻帶局部能量。
可選的,所述將所述遠場語音信號分幀處理,之后包括:
對分幀處理后的遠場語音信號進行加窗處理;
所述將每一幀的遠場語音信號進行離散小波分解處理,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市輕生活科技有限公司,未經深圳市輕生活科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110372848.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種消防管道磨平設備
- 下一篇:一種面料生產設備





