[發明專利]以麥克風陣列為基礎的語音辨識系統與方法有效
| 申請號: | 201110242054.5 | 申請日: | 2011-08-23 |
| 公開(公告)號: | CN102903360A | 公開(公告)日: | 2013-01-30 |
| 發明(設計)人: | 廖憲正 | 申請(專利權)人: | 財團法人工業技術研究院 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L21/02;H04R3/00 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 陳小雯 |
| 地址: | 中國臺*** | 國省代碼: | 中國臺灣;71 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 麥克風 陣列 基礎 語音 辨識 系統 方法 | ||
技術領域
本公開涉及一種以麥克風陣列為基礎(Microphone-Array-Based)的語音辨識系統與方法。
背景技術
近年來,移動裝置如平板計算機、手機等用戶數量大增,車用電子與機器人也發展快速。這些領域都可看出未來的語音應用需求將快速的成長。Google的Nexus?One和Motorola的Droid將主動噪音消除(Active?Noise?Cancellation,ANC)技術帶到手機市場,改善了語音應用的輸入端,而使得后端的語音辨識或其應用表現得更好,讓用戶可以得到更好的體驗。手機制造商近年來也在手機噪音消除的技術上積極地進行研究。
常見的穩健式(Robust)語音辨識技術有兩類。一類為二階段式穩健式語音辨識技術,此類技術先將語音信號增強后,再將增強后的信號傳送至語音辨識器進行辨識。例如,利用兩個適應性濾波器(Adaptive?Filter)或是以預先訓練的語音與噪音模型結合算法來調整適應性濾波器,先將語音信號增強后,再將增強后的信號傳送至語音辨識器。另一類為利用語音模型(speech?model)做為適應性濾波器調整參數的依據,但沒有考慮干擾噪音的信息,其語音信號增強所根據的準則為最大相似度(maximum?likelihood),也就是說,增強后的語音信號與語音模型越像越好。
圖1所示的是一種雙麥克風語音增強(Dual-Microphone?Speech?Enhancement)技術中,其濾波器調整參數的范例流程。此語音增強技術是先利用重新錄制與濾波后的語料來訓練出單一語音模型110后,再利用相似度最大化的條件來調整噪音遮蔽的參數γ,也就是說,此語音增強技術判斷的準則是通過相位誤差時頻濾波器(phase-difference-based?time-frequency?filtering)105出來的增強的語音信號(enhanced?speech)105a與語音模型110越相似越好。語音模型110訓練所需語料需重新錄制并加以濾波,且沒有考慮噪音的信息,因此測試環境與訓練環境的設定會有不匹配的可能。
雙麥克風或多麥克風的麥克風陣列噪音消除技術具有不錯的抗噪效果。然而在不同的使用環境下,麥克風抗噪的能力并不相同。如何能夠調整麥克風陣列參數以使得語音辨識正確率能夠增加,提供更好的用戶體驗,是非常值得研究與發展的。
發明內容
本公開實施例可提供一種以麥克風陣列為基礎的語音辨識系統與方法。
所公開的一實施例是關于一種以麥克風陣列為基礎的語音辨識系統。此系統結合噪音遮蔽模塊(noise?masking?module),以對來自麥克風陣列的輸入語音,根據輸入的閾值執行噪音消除處理,此系統可包含至少一語音模型(speech?model)與至少一填充模型(filler?model)以分別接收該噪音遮蔽模塊輸出的噪音消除后的語音信號,以及信心值計算模塊(confidence?computation?module)與閾值調整模塊(threshold?adjustment?module)。對于此閾值與此噪音消除后的語音信號,此信心值計算模塊利用此至少一語音模型與此至少一填充模型,計算出信心值。此閾值調整模塊調整此閾值并提供給此噪音遮蔽模塊來繼續執行此噪音消除處理,以使得此信心值計算模塊計算出的信心值達到最大化,然后輸出可讓此信心值達到最大化的語音辨識結果的信息。
所公開的一實施例是關于一種以麥克風陣列為基礎的語音辨識系統。此系統結合噪音遮蔽模塊,以對來自麥克風陣列的輸入語音,根據輸入的閾值的預定范圍內的多個閾值的每一閾值,來執行噪音消除處理,此系統可包含至少一語音模型與至少一填充模型以分別接收此噪音遮蔽模塊輸出的噪音消除后的語音信號、信心值計算模塊、以及最大信心值決定模塊。對于落在此閾值的預定范圍中的每一給定的閾值與此噪音消除后的語音信號,此信心值計算模塊利用此至少一語音模型與此至少一填充模型,算出信心值。此最大信心值決定模塊從所有算出的此信心值中,找出最大信心值所對應的閾值,然后輸出語音辨識結果的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于財團法人工業技術研究院,未經財團法人工業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110242054.5/2.html,轉載請聲明來源鉆瓜專利網。





