[發(fā)明專利]一種遠(yuǎn)場語音識別方法在審
| 申請?zhí)枺?/td> | 202110372848.7 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113096680A | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計)人: | 陳芒 | 申請(專利權(quán))人: | 深圳市輕生活科技有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/18;G10L25/24;G10L15/26 |
| 代理公司: | 北京冠和權(quán)律師事務(wù)所 11399 | 代理人: | 吳金水 |
| 地址: | 518000 廣東省深圳市福田區(qū)福田*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 方法 | ||
1.一種遠(yuǎn)場語音識別方法,其特征在于,包括:
獲取遠(yuǎn)場語音信號;
對所述遠(yuǎn)場語音信號進(jìn)行降噪預(yù)處理,獲得預(yù)處理后的遠(yuǎn)場語音信號;
將所述預(yù)處理后的遠(yuǎn)場語音信號輸入至語音特征提取模型,基于所述語音特征提取模型獲取所述遠(yuǎn)場語音信號對應(yīng)的語音特征;所述語音特征提取模型是采用小波變換與梅爾倒譜系數(shù)相結(jié)合的方法實現(xiàn)語音特征提取,其中,所述小波變換采用局部能量計算原則;
基于獲取的所述語音特征,采用聲學(xué)模型和語言模型匹配完成遠(yuǎn)場語音識別。
2.根據(jù)權(quán)利要求1所述的遠(yuǎn)場語音識別方法,其特征在于,所述語音特征提取模型的構(gòu)建方法包括:
將所述遠(yuǎn)場語音信號分幀處理;
將每一幀的遠(yuǎn)場語音信號進(jìn)行離散小波分解處理,獲得分解后的小波系數(shù);
將所述小波系數(shù)做快速傅里葉變換,確定所有小波系數(shù)對應(yīng)的若干個頻帶局部能量;
確定若干個頻帶局部能量分布,基于所述分布結(jié)合梅爾濾波器組確定梅爾倒譜系數(shù);
基于所述梅爾倒譜系數(shù)確定動態(tài)特性的差分參數(shù);
基于所述差分參數(shù)對語音特征的提取進(jìn)行訓(xùn)練,獲取語音特征。
3.根據(jù)權(quán)利要求2所述的遠(yuǎn)場語音識別方法,其特征在于,所述確定所有小波系數(shù)對應(yīng)的若干個頻帶局部能量,包括:
將遠(yuǎn)場語音信號進(jìn)行離散小波分解,分解為6層,形成7個頻帶能量;
將每個頻帶能量進(jìn)行按照時間段劃分為若干個頻帶局部能量。
4.根據(jù)權(quán)利要求2所述的遠(yuǎn)場語音識別方法,其特征在于,所述將所述遠(yuǎn)場語音信號分幀處理,之后包括:
對分幀處理后的遠(yuǎn)場語音信號進(jìn)行加窗處理;
所述將每一幀的遠(yuǎn)場語音信號進(jìn)行離散小波分解處理,包括:
對加窗處理后的每一幀的遠(yuǎn)場語音信號進(jìn)行離散小波分解處理。
5.根據(jù)權(quán)利要求4所述的遠(yuǎn)場語音識別方法,其特征在于,所述對分幀處理后的遠(yuǎn)場語音信號進(jìn)行加窗處理中,所述窗函數(shù)經(jīng)過傅里葉變換后的頻譜采用下述公式表示:
其中,W(w)為窗函數(shù)的頻譜,M為窗函數(shù)的長度,w為頻域變量,j2=-1。
6.根據(jù)權(quán)利要求2所述的遠(yuǎn)場語音識別方法,其特征在于,所述確定若干個頻帶局部能量分布,所述頻帶局部能量分布公式采用下述公式表示:
其中,P為頻帶局部能量分布的向量;為小波分解系數(shù)構(gòu)成的特征信號的第L個離散點系數(shù),M1和M2分別為特征信號在兩個時刻分別對應(yīng)的離散點的下標(biāo),M1≥0,M2≤M,M為特征信號的離散點的個數(shù);j=1,2…N,N為小波分解的層數(shù);為第j層的細(xì)節(jié)系數(shù);i=1,2…Nm,Nm為頻帶局部能量的個數(shù)。
7.根據(jù)權(quán)利要求1所述的遠(yuǎn)場語音識別方法,其特征在于,所述對所述遠(yuǎn)場語音信號進(jìn)行降噪預(yù)處理,獲得預(yù)處理后的遠(yuǎn)場語音信號,包括:
將所述遠(yuǎn)場語音信號采用經(jīng)驗?zāi)B(tài)分解,將語音信號分解為高頻內(nèi)涵模態(tài)分量和低頻內(nèi)涵模態(tài)分量;
針對所述高頻內(nèi)涵模態(tài)分量進(jìn)行小波變換分解,分解出高頻系數(shù)和低頻系數(shù);
針對所述高頻系數(shù)采用閾值函數(shù)的方式進(jìn)行閾值處理,獲得閾值處理后的估計小波系數(shù);
根據(jù)經(jīng)過閾值處理的估計小波系數(shù)以及所述低頻系數(shù)對小波系數(shù)進(jìn)行重構(gòu),獲得重構(gòu)后的小波系數(shù);
基于所述重構(gòu)后的小波系數(shù)及所述低頻內(nèi)涵模態(tài)分量對所述語音信號進(jìn)行重構(gòu),獲得降噪處理后的遠(yuǎn)場語音信號。
8.根據(jù)權(quán)利要求1所述的遠(yuǎn)場語音識別方法,其特征在于,所述對所述遠(yuǎn)場語音信號進(jìn)行降噪預(yù)處理,獲得預(yù)處理后的遠(yuǎn)場語音信號,包括:
采用麥克風(fēng)陣列算法確定期望信號的方向;
通過重新排列麥克風(fēng)陣列的空間位置,增強(qiáng)期望信號并抑制噪聲信號和干擾信號。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市輕生活科技有限公司,未經(jīng)深圳市輕生活科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110372848.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





