[發明專利]一種語音處理方法、裝置和用于語音處理的裝置在審
| 申請號: | 202110431564.0 | 申請日: | 2021-04-21 |
| 公開(公告)號: | CN113299301A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 崔國輝 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L21/0264;G10L25/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 處理 方法 裝置 用于 | ||
本發明實施例提供了一種語音處理方法、裝置和用于語音處理的裝置。所述方法包括:利用多通道語音信號上一幀的濾波處理參數計算當前幀的輸出預測值和增益向量,所述濾波處理參數包括濾波器系數、協方差矩陣、遺忘因子;根據當前幀的輸出預測值、當前幀的增益向量、以及上一幀的遺忘因子,更新當前幀的濾波器系數和協方差矩陣,并根據更新的濾波器系數和協方差矩陣對當前幀進行濾波處理,得到當前幀的輸出值;對下一幀進行處理。本發明實施例可以在聲源位置發生變動的時候,提高消除混響的效果,進而提高終端設備語音識別的準確率。
技術領域
本發明涉及智能控制技術領域,尤其涉及一種語音處理方法、裝置和用于語音處理的裝置。
背景技術
隨著語音識別技術的日益成熟,市場中出現越來越多的智能設備,例如智能音箱、智能電視等,這些智能設備基于語音識別技術,為用戶提供更便捷的交互方式。
在遠場情況下,室內麥克風拾取的語音信號,由于不可避免地受到來自于室內墻壁、頂部天花板和其它障礙物反射信號的干擾,會發生線性奇變,這種奇變通常稱為混響,將直接影響語音識別的效果。
目前可以利用CDR(coherent-to-difuse ration,相干擴散功率比)、MCLP(multi-channel linear prediction,多通道線性預測)等語音去混響方法對室內語音起到消除混響的作用,提升在遠場情況下的語音識別率,但是在聲源位置發生變動的時候,上述方法消除混響的效果會大打折扣,甚至降低語音識別的準確率。
發明內容
本發明實施例提供一種語音處理方法、裝置和用于語音處理的裝置,可以在聲源位置發生變動的時候,提高消除混響的效果,進而提高終端設備語音識別的準確率。
為了解決上述問題,本發明實施例公開了一種語音處理方法,所述方法包括:
利用多通道語音信號上一幀的濾波處理參數計算當前幀的輸出預測值和增益向量,所述濾波處理參數包括濾波器系數、協方差矩陣、遺忘因子;
根據當前幀的輸出預測值、當前幀的增益向量、以及上一幀的遺忘因子,更新當前幀的濾波器系數和協方差矩陣,并根據更新的濾波器系數和協方差矩陣對當前幀進行濾波處理,得到當前幀的輸出值;
對下一幀進行處理。
可選地,所述對下一幀進行處理,包括:
在當前幀的輸出值相對于上一幀的輸出值滿足預設變化條件的情況下,對所述遺忘因子進行更新,并利用更新的遺忘因子對下一幀進行處理。
可選地,所述方法還包括:
計算當前幀的濾波器系數變化值與上一幀的濾波器系數變化值的比值;
若所述比值超過預設閾值,則確定當前幀的輸出值相對于上一幀的輸出值滿足預設變化條件。
可選地,所述利用多通道語音信號上一幀的濾波處理參數計算當前幀的輸出預測值和增益向量,包括:
利用多通道語音信號上一幀的濾波器系數計算當前幀的輸出預測值;
根據當前幀的語音方差、上一幀的遺忘因子、以及上一幀的協方差矩陣,計算當前幀的增益向量。
可選地,所述方法還包括:
將多通道語音信號以幀為單位進行短時傅里葉變換,得到多通道語音信號的每一幀頻域信號;
將所述多通道語音信號的每一幀頻域信號求和后進行求模,得到每一幀的語音幅度譜;
將所述每一幀的語音幅度譜依次進行語音方差估計,得到每一幀的語音方差。
可選地,所述將所述每一幀的語音幅度譜依次進行語音方差估計,得到每一幀的語音方差,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110431564.0/2.html,轉載請聲明來源鉆瓜專利網。





