[發明專利]一種混合頻率聲學識別模型的訓練方法及語音識別方法有效
| 申請號: | 201710108893.5 | 申請日: | 2017-02-27 |
| 公開(公告)號: | CN108510979B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 范利春 | 申請(專利權)人: | 芋頭科技(杭州)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02 |
| 代理公司: | 北京中原華和知識產權代理有限責任公司 11019 | 代理人: | 壽寧 |
| 地址: | 310000 浙江省杭州市余杭區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 混合 頻率 聲學 識別 模型 訓練 方法 語音 | ||
本發明公開了一種混合頻率聲學識別模型的訓練方法及語音識別方法,屬于語音識別技術領域;方法包括:獲取第一語音信號的第一類語音特征并進行處理,以得到對應的第一語音訓練數據;獲取第二語音信號的第一類語音特征并對進行處理,以得到對應的第二語音訓練數據;根據功率譜獲取第一語音信號的第二類語音特征以及第二語音信號的第二類語音特征;根據第一語音信號和第二語音信號預訓練形成混合頻率聲學識別模型的一初步識別模型;根據第一語音訓練數據、第二語音訓練數據以及第二類語音特征對初步識別模型進行有監督的參數訓練,以形成混合頻率聲學識別模型。上述技術方案的有益效果是:識別模型具有較好的魯棒性和泛化性。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種混合頻率聲學識別模型的訓練方法及語音識別方法。
背景技術
現有技術中,由于使用環境、數據傳輸要求和傳輸使用的技術手段的不同,不同的錄音設備和存儲方法之間存在較大的差異,其中比較主要的差異在于采樣頻率的差異。例如8kHz采樣頻率的語音數據通常來自于電話錄音,那么在傳統的語音識別方法中會專門利用電話數據訓練形成一個8kHz數據的聲學識別模型。相應地,16kHz采樣頻率的語音數據通常來自于桌面錄音,同樣利用桌面數據訓練形成一個16kHz數據的聲學識別模型。因此傳統的針對混合采樣頻率的語音數據的聲學識別方法是針對不同環境不同采樣頻率的語音數據分別建立聲學識別模型。
盡管使用專用的聲學模型能夠使得測試環境和訓練環境更加匹配,但是這樣做也會帶來很多弊端:一是識別模型的更新和維護會非常繁瑣,需要分別針對每個專用的聲學模型進行專門的更新和維護;二是每個專用的聲學模型分別進行訓練會使得各個模型的訓練數據不夠充分,模型的魯棒性和泛化性也會受到限制。
發明內容
根據現有技術中存在的上述問題,現提供一種混合頻率聲學識別模型的訓練方法及語音識別方法的技術方案,旨在針對不同采樣頻率的語音信號形成一個統一的聲學識別模型,使得模型對不同采樣頻率的數據具有較好的魯棒性和泛化性,并且能夠較好地抑制環境噪聲對語音識別的影響。
上述技術方案具體包括:
一種混合頻率聲學識別模型的訓練方法,其中,訓練形成一統一的所述混合頻率聲學識別模型,以分別對具有一第一采樣頻率的第一語音信號進行聲學識別,以及對具有一第二采樣頻率的第二語音信號進行聲學識別;
所述混合頻率聲學識別模型的訓練方法具體包括:
步驟S1,獲取所述第一語音信號的第一類語音特征并對所述第一語音數據進行處理,以得到對應的第一語音訓練數據;
步驟S2,獲取所述第二語音信號的所述第一類語音特征并對所述第二語音數據進行處理,以得到對應的第二語音訓練數據;
步驟S3,根據所述第一語音信號的功率譜獲取所述第一語音信號的第二類語音特征,以及根據所述第二語音信號的功率譜獲取所述第二語音信號的第二類語音特征;
步驟S4,根據所述第一語音信號和所述第二語音信號預訓練形成所述混合頻率聲學識別模型的一初步識別模型;
步驟S5,根據所述第一語音訓練數據、所述第二語音訓練數據以及所述第二類語音特征對所述初步識別模型進行有監督的參數訓練,以形成所述混合頻率聲學識別模型。
優選的,該訓練方法,其中,所述第一采樣頻率為16KHz的采樣頻率。
優選的,該訓練方法,其中,所述第二采樣頻率為8KHz的采樣頻率。
優選的,該訓練方法,其中,所述第一類語音特征為MFCC特征。
優選的,該訓練方法,其中,所述第二類語音特征為fbank特征。
優選的,該訓練方法,其中,所述步驟S1中,對所述第一語音信號進行處理以得到所述第一語音訓練數據的方法具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于芋頭科技(杭州)有限公司,未經芋頭科技(杭州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710108893.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語種識別方法及計算機設備
- 下一篇:一種可學習的語音識別控制方法





