[發(fā)明專利]語音處理方法及裝置有效
| 申請?zhí)枺?/td> | 201710578504.5 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107393550B | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 蔡鋼林 | 申請(專利權(quán))人: | 深圳永順智信息科技有限公司 |
| 主分類號: | G10L21/0232 | 分類號: | G10L21/0232;G10L21/0208;G10L25/21;G10L15/20 |
| 代理公司: | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 處理 方法 裝置 | ||
本發(fā)明提出的一種語音處理方法及裝置,其方法如下:首先將聲音信號轉(zhuǎn)化成頻域信號,通過計算頻域信號的信噪比獲得噪音功率譜的自適應(yīng)更新步長,根據(jù)步長更新噪音功率譜密度;然后檢測聲音信號中是否存在語音活動,在存在語音活動的情況下,使用自適應(yīng)Kalman濾波處理頻域信號,獲得混響功率譜密度;在確定噪音功率譜密度和混響功率譜密度之后,計算優(yōu)化估算語音頻譜,最后將優(yōu)化估算語音頻譜經(jīng)傅里葉逆變換,還原出優(yōu)化后的聲音信號。本發(fā)明能有效地優(yōu)化遠(yuǎn)講情況下采集的聲音信號質(zhì)量,提高語音識別的識別率。
技術(shù)領(lǐng)域
本發(fā)明涉及到語音識別領(lǐng)域,特別是涉及到一種語音處理方法及裝置。
背景技術(shù)
近年來隨著互聯(lián)網(wǎng)技術(shù)、智能硬件的蓬勃發(fā)展,語音識別、聲紋識別、聲源檢測等語音智能交互技術(shù)開始從實(shí)驗室走向用戶。由于語音識別技術(shù)是基于語音的人機(jī)交互系統(tǒng)最核心的技術(shù)。目前在限定條件下識別率已經(jīng)達(dá)到可用的準(zhǔn)確率。所謂限定調(diào)節(jié)通常是指用戶距離麥克風(fēng)較近,噪聲干擾較小。而必須近距離發(fā)出語音指令這一條件限制了語音交互的便捷性。
在遠(yuǎn)講情況下,由于語音能量會快速衰減,而噪音干擾能量大致不變,會使得識別率迅速下降。另外一個影響識別準(zhǔn)確率的因素是,語音指令到達(dá)房間墻壁多次反射之后的混響,也會造成實(shí)際應(yīng)用與語音識別訓(xùn)練數(shù)據(jù)集的不匹配,影響識別率。
噪音主要有兩個來源:(1)麥克風(fēng)信號采集系統(tǒng)自帶的信道噪聲,信道噪聲因麥克風(fēng)的敏感性而不同,麥克風(fēng)敏感性越高,通常信道噪聲越高;(2)不可忽略的環(huán)境噪聲干擾,比如電視機(jī)、空調(diào)噪聲等等。相比于噪聲,混響由于產(chǎn)生條件更為復(fù)雜,更難抑制。并且,噪音和混響一般同時存在,使得混響抑制更加困難。
CN201010224307.1公開了一種語音增強(qiáng)的方法,該方法包括如下步驟:利用判斷器判斷當(dāng)前幀是否為純噪音,如果當(dāng)前幀是純噪音且該當(dāng)前幀的前若干幀均為純噪音,利用改進(jìn)譜減法的語音增強(qiáng)算法改進(jìn)頻域信號,反之語音生成模型的增強(qiáng)算法改進(jìn)頻域信號;將處理后的頻域信號變換到時間域,進(jìn)行去加重處理并得到輸出信號。該發(fā)明的語音增強(qiáng)的方法,大大提高了對殘余噪聲的衰減,保證了語音可懂度。
然而,該方法解決的是高噪音背景下的除噪問題,并不適用于室內(nèi)環(huán)境遠(yuǎn)講情形下的除噪問題。
發(fā)明內(nèi)容
本發(fā)明的主要目的為提供一種語音處理方法及裝置,在遠(yuǎn)講情況下,提高室內(nèi)采集聲音信號的質(zhì)量。
本發(fā)明提出一種語音處理方法,包括以下步驟:
將聲音信號從時域變換到頻域,獲得頻域信號,計算所述頻域信號的觀測信號功率譜密度,并根據(jù)所述觀測信號功率譜密度估算噪音功率譜密度;
在判斷出所述聲音信號存在語音活動時,使用自適應(yīng)Kalman濾波處理所述頻域信號,獲得混響功率譜密度;
根據(jù)所述噪音功率譜密度、混響功率譜密度、觀測信號功率譜密度計算去除噪音和混響的頻域信號,記為優(yōu)化估算語音頻譜;
使用逆傅里葉變換將所述優(yōu)化估算語音頻譜從頻域恢復(fù)為時域,獲得優(yōu)化后的聲音信號。
優(yōu)選地,所述估算噪音功率譜密度的步驟,包括:
假定前LI時間幀沒有語音活動,初始化噪音功率譜密度、估算語音頻譜、觀測信號功率譜密度、先驗信噪比、后驗信噪比;
從第LI+1時間幀開始做迭代計算,更新觀測信號功率譜密度,具體為:
ΦY(k)=αΦ′Y(k)+(1-α)|Y(l,k)|2
其中,α為第一平滑因子,ΦY(k)為觀測信號功率譜密度,Φ′Y(k)為前一幀的觀測信號功率譜密度,Y(l,k)為所述頻域信號;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳永順智信息科技有限公司,未經(jīng)深圳永順智信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710578504.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





