[發明專利]識別模型構建方法、語音識別方法、電子設備及存儲介質在審
| 申請號: | 202011601858.5 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112614485A | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 簡仁賢;許曜麒;林長洲 | 申請(專利權)人: | 竹間智能科技(上海)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/07;G10L15/16;G10L15/26;G10L25/24 |
| 代理公司: | 上海中外企專利代理事務所(特殊普通合伙) 31387 | 代理人: | 孫益青 |
| 地址: | 200233 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 模型 構建 方法 語音 電子設備 存儲 介質 | ||
本發明公開了識別模型構建方法、語音識別方法、電子設備及存儲介質,所述識別模型構建方法包括以下步驟:獲取口音提取器,所述口音提取器用于提取語音中的口音特征;獲取不同口音的普通話語料;利用口音提取器提取所述普通話語料的口音特征;將普通話語料的口音特征和頻域特征輸入初始識別模型,對該該初始識別模型進行訓練,得到識別模型。包括。本發明通過將語音的口音特征加入到語音識別中,對帶口音的語音能夠具有很高的識別率。
技術領域
本發明屬于人工智能技術領域,尤其涉及一種識別模型構建方法、語音識別方法、電子設備及存儲介質。
背景技術
目前現有的識別模型主要依據的是語音的頻域特征,沒有考慮到語音的一些口音特征,這使得一些對一些發音不標準的語音識別時,準確率較低。
另外,以中國漢語為例,漢語以方言分為普通話、贛語、閩語、粵語、客家話、吳語、湘語等等,這導致各個地方在講普通話時都帶有各自的口音,這些帶口音的普通話,以目前的語音識別技術識別時,準確率不高。
發明內容
本發明所要解決的技術問題在于針對上述現有技術中的不足,提供一種識別模型構建方法及語音識別方法,通過將語音的口音特征加入到語音識別中,對帶口音的語音能夠具有很高的識別率。
本發明第一方面公開了一種識別模型構建方法,包括以下步驟:獲取口音提取器,所述口音提取器用于提取語音中的口音特征;
獲取不同口音的普通話語料;
利用口音提取器提取所述普通話語料的口音特征;
將普通話語料的口音特征和頻域特征輸入初始識別模型,對所述初始識別模型進行訓練,得到識別模型。
上述識別模型構建方法,所述獲取口音提取器,包括:
獲取不同口音的任意語料;
利用所述任意語料的頻域特征對時間延遲神經網絡模型進行訓練,得到口音提取器。
上述識別模型構建方法,所述對時間延遲神經網絡模型進行訓練,包括:
步驟a、選擇一部分任意語料的頻域特征數據輸入時間延遲神經網絡模型;
步驟b、通過前向傳播演算法獲取時間延遲神經網絡模型的口音特征預測值;
步驟c、判斷所述口音特征預測值與口音特征真實值是否達到最小化交叉熵;
若是,則訓練結束,輸出當前時間延遲神經網絡模型,若否,則進入下一步;
步驟d、通過反向傳播演算法更新時間延遲神經網絡模型的參數;
步驟e、判斷時間延遲神經網絡模型是否收斂;若是,則訓練結束,輸出當前時間延遲神經網絡模型,若否,則進入下一步;
步驟f、選擇下一部分任意語料的頻域特征數據輸入時間延遲神經網絡模型;然后執行步驟b—步驟e。
上述識別模型構建方法,所述任意語料的頻域特征包括將所述任意語料的語音經過傅里葉變換,再通過梅爾濾波器產生的梅爾頻率倒譜系數特征。
上述識別模型構建方法,所述普通話語料的頻域特征包括將所述任意語料的語音經過傅里葉變換,再通過梅爾濾波器產生的梅爾頻率倒譜系數特征。
上述識別模型構建方法,所述初始識別模型包括聲學模型和語言模型;
所述聲學模型,用于根據語料的頻域特征和口音特征識別出音素序列;
所述語言模型,用于根據音素序列識別出對應的文字。
上述識別模型構建方法,對所述初始識別模型進行訓練,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于竹間智能科技(上海)有限公司,未經竹間智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011601858.5/2.html,轉載請聲明來源鉆瓜專利網。





