[發明專利]目標任務分布估計和聲學模型自適應方法及系統有效
| 申請號: | 201410007278.1 | 申請日: | 2014-01-07 |
| 公開(公告)號: | CN104766611A | 公開(公告)日: | 2015-07-08 |
| 發明(設計)人: | 賀志陽;呂萍;吳及;胡國平;胡郁 | 申請(專利權)人: | 安徽科大訊飛信息科技股份有限公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30;G10L15/065 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 王立民;吉海蓮 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標 任務 分布 估計 聲學 模型 自適應 方法 系統 | ||
技術領域
本發明涉及語音識別領域,尤其涉及一種面向任務的聲學模型自適應方法及系統。
背景技術
自20世紀90年代起,研究人員針對語音識別系統中的聲學模型提出了說話人自適應技術,如最大似然線性回歸(MLLR)、最大后驗概率(MAP)等,通過該技術,僅需采集少量說話人數據即可對原始聲學模型(預先在大量通用數據上訓練得到的說話人無關模型)進行優化調整,使得調整后的聲學模型能夠更加接近說話人特點,進而提高識別準確率。近年來,隨著移動互聯網和云計算的高速發展,語音識別技術更加普及,其應用環境也日趨復雜化,面向任務的聲學模型自適應技術已成為新的研究熱點。面向任務(指語音識別任務)的聲學模型自適應技術針對具體的識別應用對聲學模型參數進行自適應調整,使得調整后的聲學模型參數與語音識別任務更加匹配進而獲得更好的識別性能。傳統的針對具體說話人的說話人自適應技術已不能滿足應用的需求。
傳統的面向語音識別任務的聲學模型自適應方法包括如下步驟:
步驟A:統計具體語音識別任務中基本語音單元的出現頻率作為目標任務分布;其中的基本語音單元通常為音節單元、音素單元等基本識別單元。在統計基本語音單元的分布時,系統通常根據任務相關的人工標注訓練數據(即對語音識別任務進行人工識別的結果數據)或者任務相關的語音識別結果數據(即系統對語音識別任務進行識別的結果數據)進行統計,統計各基本語音單元在上述數據中的出現頻率作為目標任務分布。
步驟B:根據所述目標任務分布從任務相關的人工標注訓練數據或者任務相關的語音識別結果數據中挑選自適應數據,使自適應數據的分布與目標任務分布一致。
在步驟B中,通過基于KL距離(Kullback-Leibler?Divergence)通過貪心算法挑選該自適應數據,具體步驟如下:
步驟B1:將任務相關的人工標注訓練數據或者任務相關的語音識別結果數據作為備選數據集合,設定已挑選數據集為空集,并設定挑選數據量。
步驟B2:依次考察備選數據集合中的每一個數據,其中,考察當前數據的方法為:將當前數據放入已挑選數據集合,計算已挑選數據集合的分布與目標任務分布的KL距離,之后恢復已挑選數據集合。
步驟B3:選擇步驟B2中使得新的已挑選數據集合與目標任務分布的KL距離最小的數據作為本次的挑選對象,將該數據放入已挑選數據集合,并從備選數據集合中刪除該數據。
步驟B4:判斷已挑選數據集中的數據量是否達到設定的挑選數據量,如果達到,則退出挑選步驟,否則,繼續執行步驟B2。
步三:對步驟B中挑選的自適應數據進行人工標注修正;如果備選數據集合來源于任務相關的語音識別結果數據,那么為了保證自適應數據的正確性還需要對所挑選的自適應數據進行人工標注修正,如果備選數據集合來源于任務相關的人工標注訓練數據,則省略步驟三。
步四:利用所挑選的自適應數據對原有聲學模型進行模型參數的自適應調整,獲取優化的聲學模型。
由此可見,以上傳統的面向語音識別任務的聲學模型自適應方法主要基于語音單元分布一致性的原則挑選自適應數據,該種方法的實現簡單直接,且取得了一定的成果,但在實際應用中依然存在以下缺陷:
1.計算目標任務分布存在一定的不確定性,比如:傳統方法挑選的自適應數據僅考慮自適應數據具有和具體任務一致的語音單元數據覆蓋度,而語音識別系統性能的提升需要重點提高原系統中識別效果較差的語音單元識別情況,因而在保證數據平衡的條件下合理關注識別較差的語音單元的數據對提高系統性能有實際意義。
2.傳統的基于任務相關的人工標注訓練數據的覆蓋度分析存在一定的問題,一方面要估計較為準確的數據分布需要較大量的人工標注數據,另一個方面人工標注數據往往不是時效性很強的數據,使用這些數據估計的分布難以真實反映當前系統中的數據分布情況。
3.傳統的基于語音識別結果數據的覆蓋度分布,雖然可以保證分布的時效性,但是由于語音識別結果往往有誤,據此獲得的分布估計也并不準確。
4.所挑選的自適應數據不一定滿足應用需求,這體現在傳統的任務自適應方法如果基于人工標注數據進行數據挑選,那么在人工標注的數據量方面存在一定的問題,如果人工標注的數據量不充足,則難以保證達到挑選的自適應數據的分布與估計的數據分布盡可能的接近的目標,而如果要達到這樣的目標,就需要大量的人工標注數據作為挑選的備選數據,這需要消耗大量的人力標注資源;傳統的任務自適應方法如果基于語音識別結果數據進行數據挑選,那么由于識別結果有誤,挑選的數據集的數據分布很可能與估計的目標分布有較大差距。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽科大訊飛信息科技股份有限公司,未經安徽科大訊飛信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410007278.1/2.html,轉載請聲明來源鉆瓜專利網。





