[發明專利]識別模型構建方法、語音識別方法、電子設備及存儲介質在審
| 申請號: | 202011601858.5 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112614485A | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 簡仁賢;許曜麒;林長洲 | 申請(專利權)人: | 竹間智能科技(上海)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/07;G10L15/16;G10L15/26;G10L25/24 |
| 代理公司: | 上海中外企專利代理事務所(特殊普通合伙) 31387 | 代理人: | 孫益青 |
| 地址: | 200233 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 模型 構建 方法 語音 電子設備 存儲 介質 | ||
1.一種識別模型構建方法,其特征在于,包括以下步驟:
獲取口音提取器,所述口音提取器用于提取語音中的口音特征;
獲取不同口音的普通話語料;
利用口音提取器提取所述普通話語料的口音特征;
將普通話語料的口音特征和頻域特征輸入初始識別模型,對所述初始識別模型進行訓練,得到識別模型。
2.如權利要求1所述識別模型構建方法,其特征在于,所述獲取口音提取器,包括:
獲取不同口音的任意語料;
利用所述任意語料的頻域特征對時間延遲神經網絡模型進行訓練,得到口音提取器。
3.如權利要求2所述識別模型構建方法,其特征在于,所述對時間延遲神經網絡模型進行訓練,包括:
步驟a、選擇一部分任意語料的頻域特征數據輸入時間延遲神經網絡模型;
步驟b、通過前向傳播演算法獲取時間延遲神經網絡模型的口音特征預測值;
步驟c、判斷所述口音特征預測值與口音特征真實值是否達到最小化交叉熵;
若是,則訓練結束,輸出當前時間延遲神經網絡模型,若否,則進入下一步;
步驟d、通過反向傳播演算法更新時間延遲神經網絡模型的參數;
步驟e、判斷時間延遲神經網絡模型是否收斂;若是,則訓練結束,輸出當前時間延遲神經網絡模型,若否,則進入下一步;
步驟f、選擇下一部分任意語料的頻域特征數據輸入時間延遲神經網絡模型;然后執行步驟b—步驟e。
4.如權利要求2或3所述識別模型構建方法,其特征在于,所述任意語料的頻域特征包括將所述任意語料的語音經過傅里葉變換,再通過梅爾濾波器產生的梅爾頻率倒譜系數特征。
5.如權利要求1所述識別模型構建方法,其特征在于,所述普通話語料的頻域特征包括將所述任意語料的語音經過傅里葉變換,再通過梅爾濾波器產生的梅爾頻率倒譜系數特征。
6.如權利要求1所述識別模型構建方法,其特征在于,
所述初始識別模型包括聲學模型和語言模型;
所述聲學模型,用于根據語料的頻域特征和口音特征識別出音素序列;
所述語言模型,用于根據音素序列識別出對應的文字。
7.如權利要求6所述識別模型構建方法,其特征在于,對所述初始識別模型進行訓練,包括:
對所述聲學模型和所述語言模型進行訓練;
對所述聲學模型進行訓練包括:采用將普通話語料的口音特征和頻域特征輸入時間延遲神經網絡模型進行訓練,訓練采用以最小辨識錯誤為目標。
8.一種語音識別方法,其特征在于,包括以下步驟:
提取待識別語音的口音特征和頻域特征;
將待識別語音的口音特征和頻域特征輸入識別模型中,輸出語音識別結果,所述識別模型為根據權利要求1—6中任一權利要求所述識別模型構建方法構建所得。
9.如權利要求7所述的語音識別方法,其特征在于,采用口音提起器提取待識別語音的口音特征,所述口音提取器為經過訓練的時間延遲神經網絡模型,所述口音特征為口音提取器的倒數第二層的向量值;所述倒數第二層指時間延遲神經網絡模型從輸出層向輸入層數第二層。
10.一種電子設備,其特征在于,包括處理器和存儲器,所述存儲器和所述處理器連接;
所述存儲器用于存儲程序;
所述處理器調用存儲于所述存儲器中的程序,以執行如權利要求1—8中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于竹間智能科技(上海)有限公司,未經竹間智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011601858.5/1.html,轉載請聲明來源鉆瓜專利網。





