[發(fā)明專利]噪聲降低方法和裝置有效
| 申請?zhí)枺?/td> | 201380012027.6 | 申請日: | 2013-02-08 |
| 公開(公告)號: | CN104205214B | 公開(公告)日: | 2016-11-23 |
| 發(fā)明(設(shè)計)人: | 市川治;S·J·倫尼 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G10L21/0264 | 分類號: | G10L21/0264;G10L15/20;G10L21/0216 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 噪聲 降低 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù),并且更具體地,涉及噪聲降低技術(shù)。
背景技術(shù)
在語音識別技術(shù)中,背景噪聲的影響的移除是令人關(guān)注的問題,它對于提高話語(utterance)識別的準(zhǔn)確性是重要的。當(dāng)背景噪聲相對小時,相關(guān)領(lǐng)域的濾波技術(shù)(諸如譜相減(spectral?subtraction)方法和維納(Wiener)濾波)具有一定程度的成功,但是在大的背景噪聲上無法獲得所期望的結(jié)果,因為目標(biāo)語音陷入在該噪聲中。
因此,近年來已經(jīng)將注意力放在使用干凈語音(clean?speech)(沒有任何噪聲被疊加在其上的話語語音)的概率模型的方法。這些基于模型的噪聲降低方法已經(jīng)被報道為甚至是在大的背景噪聲上也顯示出高的性能。關(guān)于這個方面,日本專利申請公開第2008-298844號(專利文獻1)公開了一種采用基于模型的噪聲降低的語音識別系統(tǒng)。
[引用列表]
[專利引用]
[專利引用1]日本專利申請公開第2008-298844號
發(fā)明內(nèi)容
[技術(shù)問題]
本發(fā)明的目的在于提供一種被應(yīng)用于語音識別前端的創(chuàng)新的噪聲降低方法。
[對問題的技術(shù)方案]
發(fā)明人已經(jīng)努力地實驗出一種被應(yīng)用于語音識別前端的創(chuàng)新的噪聲降低方法,并且因此構(gòu)思出一種配置,該配置利用包括針對觀測語音的每個頻帶的置信度指數(shù)的因數(shù)模型,從而完成了本發(fā)明。
也就是,根據(jù)本發(fā)明,提供了一種噪聲降低方法,該方法包括:基于觀測語音的頻譜而生成針對每個頻帶的置信度指數(shù)的步驟;生成概率模型的步驟,所述概率模型被表示為具有針對每個頻帶的維度的混合多維度正態(tài)分布,每個正態(tài)分布被表示為第一正態(tài)分布和第二正態(tài)分布的乘積;以及通過在所述概率模型上執(zhí)行MMSE估計來估計失配向量估計值、以及基于所述失配向量估計值來獲得干凈語音估計值的步驟。第一正態(tài)分布是基于所述觀測語音而生成的失配向量的概率分布。第二正態(tài)分布被定義為如下的函數(shù),該函數(shù)具有零的均值并且輸出隨著所述置信度指數(shù)變得更大而變成更小的值的方差。
而且,根據(jù)本發(fā)明,提供了一種噪聲降低方法,該方法包括:基于觀測語音的頻譜而生成針對每個頻帶的置信度指數(shù)的步驟;生成概率模型的步驟,所述概率模型被表示為具有針對每個頻帶的維度的混合多維度正態(tài)分布,每個正態(tài)分布被表示為第一正態(tài)分布和第二正態(tài)分布的乘積;以及通過在所述概率模型上執(zhí)行MMSE估計來獲得干凈語音估計值的步驟。第一正態(tài)分布是基于所述觀測語音而生成的干凈語音的概率分布。第二正態(tài)分布被定義為如下的函數(shù),該函數(shù)具有以觀測值為均值并且輸出隨著所述置信度指數(shù)變得更大而變成更小的值的方差。
進一步地,根據(jù)本發(fā)明,提供了一種計算機程序產(chǎn)品,用于使得計算機執(zhí)行這些方法中的每個方法,以及提供了一種噪聲降低裝置,實施用于實現(xiàn)這些方法中的每個方法的功能。
[本發(fā)明的有益效果]
如以上所描述的,根據(jù)本發(fā)明,通過利用包含針對觀測語音的每個頻帶的置信度指數(shù)的因數(shù)模型來優(yōu)化前端的輸出。
附圖說明
[圖1]圖1是圖示相關(guān)領(lǐng)域的語音識別系統(tǒng)中的前端的配置的示意圖。
[圖2]圖2包括圖示根據(jù)觀測語音的頻譜生成梅爾(mel)LPW的步驟的示意圖。
[圖3]圖3包括圖示根據(jù)梅爾LPW生成置信度指數(shù)β的步驟的示意圖。
[圖4]圖4是圖示實施例的語音識別系統(tǒng)中的前端的配置的示意圖。
[圖5]圖5是圖示由實施例的前端執(zhí)行的過程的流程圖。
具體實施方式
在下文中,將參照在附圖中圖示的實施例來描述本發(fā)明。然而,本發(fā)明不限于在附圖中圖示的實施例。注意,在以下參照的附圖中,相同元件以相同參照標(biāo)號給出,并且其描述被適當(dāng)?shù)厥÷浴?/p>
一般而言,語音識別系統(tǒng)包括前端和后端,前端將特定轉(zhuǎn)換應(yīng)用到話語語音的聲學(xué)信號以提取特征量,后端基于在前端中提取的特征量來搜索數(shù)據(jù)庫,以指明話語的內(nèi)容。本發(fā)明提供了一種創(chuàng)新技術(shù),其將包含觀測語音的頻譜的置信度指數(shù)的因數(shù)模型用于被應(yīng)用到前端的基于模型的噪聲補償。
<基于模型的噪聲補償>
在開始本發(fā)明的實施例的描述之前,將基于圖1來描述被應(yīng)用到前端的基于模型的噪聲補償。注意,在以下描述中,“觀測語音”指的是其中背景噪聲被疊加在話語語音上的實際觀測的聲音;“干凈語音”指的是沒有任何噪聲被疊加在其上的話語語音;并且“干凈語音估計值”指的是從觀測語音所估計的干凈語音的估計值。而且,“頻譜”指的是功率譜或者幅度譜。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380012027.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





