[發明專利]語音識別方法和裝置有效
| 申請號: | 201610008069.8 | 申請日: | 2016-01-06 |
| 公開(公告)號: | CN105702250B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 范思楠;齊昕;關胤;王維蘭;吳擁民;陳宏展;劉德建 | 申請(專利權)人: | 福建天晴數碼有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14;G10L15/16;G10L25/24 |
| 代理公司: | 福州市景弘專利代理事務所(普通合伙) 35219 | 代理人: | 林祥翔;呂元輝 |
| 地址: | 350015 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 | ||
為提供更全面地提取特征和對音頻刻畫更為具體因而識別能力更強的語音識別技術,發明人提出了一種語音識別方法,包括下步驟:以預設采樣參數以及預設格式存儲兒童語音信息;從存儲的兒童語音信息中提取每幀音頻的39維梅爾頻率倒譜系數,并用混合高斯模型描述所述各幀音頻的39維梅爾頻率倒譜系數;訓練各狀態的混合高斯模型并構建各狀態的隱馬爾科夫模型;以gmm?hmm模型為基礎初始化一深度信念網絡;以經訓練的混合高斯模型?隱馬爾科夫模型對所述深度信念網絡進行調整,得到基于深度信念網絡的dnn?hmm模型;利用所述基于深度信念網絡的dnn?hmm模型進行語音識別。發明人同時提供了實現上述語音識別方法的語音識別裝置。
技術領域
本發明涉及語音信息處理和軟件領域,特別涉及一種語音識別方法和裝置。
背景技術
隨著語音交互技術不斷的發展,語音識別技術已經較為成熟完善。但受限于用戶群體和語料的采集難度,兒童語音識別效率一直沒有很好的提升手段。
在現有技術中,一種針對兒童的語音識別方法在提取語料聲學特征的過程中加入聲道長度歸一化技術,以此來提升兒童語音的識別效率,并通過疊加多個模型的方式來訓練聲學模型。然而,現有主流的語音識別交互技術中,受限于語料的采集渠道和采集成本,目前成熟的語料庫都只針對于成人的語音識別,鮮有兒童語料。同成年人的發音相比,兒童的發音發聲速度變化迅速,咬字不準導致發音不清晰等問題,導致現有的語音識別徐婷對兒童的語音識別準確率極低。并且現有的聲學模型構建多是采用高斯混合模型與隱馬爾科夫模型相結合的方式,依據現有的特征提取方式,提取出的特征維度較少,不能很好的描述語音本身。
發明內容
基于此,需要提供一種能更全面地提取特征和對音頻刻畫更為具體因而識別能力更強的語音識別技術。
為實現上述目的,發明人提供了一種語音識別方法,包括如下步驟:
以預設采樣參數以及預設格式存儲兒童語音信息;
從存儲的兒童語音信息中提取每幀音頻的39維梅爾頻率倒譜系數,并用混合高斯模型描述所述各幀音頻的39維梅爾頻率倒譜系數;
訓練各狀態的混合高斯模型并構建各狀態的隱馬爾科夫模型;
以gmm-hmm模型為基礎初始化一深度信念網絡;
以經訓練的混合高斯模型-隱馬爾科夫模型對所述深度信念網絡進行調整,得到基于深度信念網絡的dnn-hmm模型;
利用所述基于深度信念網絡的dnn-hmm模型進行語音識別。
進一步地,所述的語音識別方法中,步驟“以gmm-hmm模型為基礎初始化一深度信念網絡”具體包括:
提取每幀音頻及其前后若干幀音頻的梅爾頻率倒譜系數作為輸入信息以構造相應的高斯模型;
訓練所述輸入信息的第一層受限玻爾茲曼機;
以第一層受限玻爾茲曼機的訓練輸出作為第二層受限玻爾茲曼機的輸入并訓練第二層受限玻爾茲曼機,直至頂層受限玻爾茲曼機;
對頂層受限玻爾茲曼機,結合帶分類標簽的訓練數據進行訓練,并得到初始化的深度信念網絡
進一步地,所述的語音識別方法中,所述“每幀音頻及其前后若干幀音頻”具體包括:
每幀音頻及其前4幀和后4幀音頻;
每幀音頻及其前5幀和后5幀音頻;
每幀音頻及其前4幀和后5幀音頻;或
每幀音頻及其前5幀和后4幀音頻。
進一步地,所述的語音識別方法中,步驟“訓練第二層受限玻爾茲曼機,直至頂層受限玻爾茲曼機”具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建天晴數碼有限公司,未經福建天晴數碼有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610008069.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電阻式存儲器裝置和列解碼器
- 下一篇:一種可譜曲的音樂盒





