[發明專利]語音識別的建模方法和裝置有效
| 申請號: | 201510920809.0 | 申請日: | 2015-12-11 |
| 公開(公告)號: | CN105551483B | 公開(公告)日: | 2020-02-04 |
| 發明(設計)人: | 白錦峰;蘇丹;胡娜;賈磊 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06 |
| 代理公司: | 11201 北京清亦華知識產權代理事務所(普通合伙) | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 建模 方法 裝置 | ||
1.一種語音識別的建模方法,其特征在于,包括:
將語音信號轉化成特征向量序列,以及將所述語音信號對應的標注文本轉化成建模單元序列,所述建模單元序列中的每個建模單元為完整的聲母或韻母的發音單元或者上下文相關的聲母或韻母的發音單元;
在所述建模單元序列中的任意建模單元的前面或后面添加空白標簽;
基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練,建立語音識別模型;
其中,所述方法還包括:
在基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練的過程中,進行區分度訓練,以強化建立的語音識別模型對正確標注文本和最大可能錯誤的候選文本之間的區分能力;
其中,所述基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練,建立語音識別模型包括:
通過對深度循環神經網絡采用固定邊界的交叉熵訓練,獲得初始模型;
在所述初始模型的基礎上,基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練,建立語音識別模型。
2.根據權利要求1所述的方法,其特征在于,所述將語音信號轉化成特征向量序列包括:
按照預定的窗長和預定的步長將所述語音信號轉化為固定維數的特征向量序列。
3.根據權利要求1所述的方法,其特征在于,所述基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練,建立語音識別模型之后,還包括:
通過所述語音識別模型對待識別的語音信號進行識別。
4.一種語音識別的建模裝置,其特征在于,包括:
轉化模塊,用于將語音信號轉化成特征向量序列,以及將所述語音信號對應的標注文本轉化成建模單元序列,所述建模單元序列中的每個建模單元為完整的聲母或韻母的發音單元或者上下文相關的聲母或韻母的發音單元;
添加模塊,用于在所述建模單元序列中的任意建模單元的前面或后面添加空白標簽;
訓練模塊,用于基于連接時序分類對所述轉化模塊轉化的特征向量序列和所述添加模塊添加所述空白標簽后的建模單元序列進行訓練,建立語音識別模型;
其中,所述訓練模塊,還用于在基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練的過程中,進行區分度訓練,以強化建立的語音識別模型對正確標注文本和最大可能錯誤的候選文本之間的區分能力;
其中,所述訓練模塊,具體用于通過對深度循環神經網絡采用固定邊界的交叉熵訓練,獲得初始模型;在所述初始模型的基礎上,基于連接時序分類對所述特征向量序列和添加所述空白標簽后的建模單元序列進行訓練,建立語音識別模型。
5.根據權利要求4所述的裝置,其特征在于,
所述轉化模塊,具體用于按照預定的窗長和預定的步長將所述語音信號轉化為固定維數的特征向量序列。
6.根據權利要求4所述的裝置,其特征在于,還包括:
識別模塊,用于通過所述訓練模塊建立的語音識別模型對待識別的語音信號進行識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510920809.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網絡教學實時語音分析系統
- 下一篇:可調降噪箱





