[發明專利]語音識別模型分詞訓練方法、系統、移動終端及存儲介質有效
| 申請號: | 201910878880.5 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110853625B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 徐敏;李稀敏;肖龍源;蔡振華;劉曉葳;王靜 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 模型 分詞 訓練 方法 系統 移動 終端 存儲 介質 | ||
1.一種語音識別模型分詞訓練方法,其特征在于,所述方法包括:
收集本地存儲的文本語料,設置組詞總數,并分別計算所述文本語料中每個當前文字與下一文字之間的組合頻數;
當判斷到所述組合頻數大于第一頻數閾值時,將所述當前文字與所述下一文字進行組詞,并將組詞后的詞標記為一個整體,直至最長組合頻數小于等于第二頻數閾值,停止組詞,以得到組詞詞典;
將所述組詞詞典與本地預存儲的原始詞典進行合并,并根據合并后的詞典對所述文本語料進行分詞,以得到分詞語料;
根據所述合并后的詞典中每個詞在所述分詞語料中出現的頻數,確定每個詞在所述分詞語料中的第一出現概率;
根據每兩個詞在所述分詞語料中一起出現的頻數,除以其中一個詞出現的頻數,確定每個詞在所述分詞語料中的第二出現概率,所述第二出現概率用于表征在給定一詞的情況下,出現另一個詞的概率;
根據每三個詞在所述分詞語料中一起出現的頻數,確定每個詞在所述分詞語料中的第三出現概率,所述第三出現概率用于表征所述三個詞中,給定一個詞的情況下,同時出現另外兩個詞的概率;
若任一所述詞對應的第三出現概率等于0,則根據所述詞的第一出現概率和第二出現概率對第三出現概率進行概率平滑;
根據每個詞在所述分詞語料中的所述第一出現概率、所述第二出現概率和所述第三出現概率對語音識別模型進行訓練。
2.如權利要求1所述的語音識別模型分詞訓練方法,其特征在于,所述分別計算所述文本語料中每個當前文字與下一文字之間的組合頻數的步驟之前,所述方法還包括:
對所述文本語料進行特殊字符識別,并根據識別結果進行字符刪除;
對所述文本語料進行標點識別,并根據識別結果將識別到的標點符號轉為換行符;
對所述文本語料進行數字識別,并根據識別結果將數字字符串轉換為對應的文字字符串。
3.如權利要求1所述的語音識別模型分詞訓練方法,其特征在于,所述將所述組詞詞典與本地預存儲的原始詞典進行合并的步驟包括:
獲取所述原始詞典的原始格式,并將所述組詞詞典轉換為所述原始格式;
將所述組詞詞典與所述原始詞典進行合并,將合并后的詞典進行文字排序,并根據排序結果進行詞組去重。
4.如權利要求1所述的語音識別模型分詞訓練方法,其特征在于,所述方法還包括:
當判斷到所述文本語料中的所述組詞頻數小于第二頻數閾值時,發出組詞提示,以使用戶進行語料補充。
5.一種語音識別模型分詞訓練系統,其特征在于,所述系統包括:
頻數計算模塊,用于收集本地存儲的文本語料,設置組詞總數,并分別計算所述文本語料中每個當前文字與下一文字之間的組合頻數;
組詞控制模塊,用于當判斷到所述組合頻數大于第一頻數閾值時,將所述當前文字與所述下一文字進行組詞,并將組詞后的詞標記為一個整體,直至最長組合頻數小于等于第二頻數閾值,停止組詞,以得到組詞詞典;
詞典合并模塊,用于將所述組詞詞典與本地預存儲的原始詞典進行合并,并根據合并后的詞典對所述文本語料進行分詞,以得到分詞語料;
分詞訓練模塊,用于根據所述合并后的詞典中每個詞在所述分詞語料中出現的頻數,確定每個詞在所述分詞語料中的第一出現概率;
根據每兩個詞在所述分詞語料中一起出現的頻數,除以其中一個詞出現的頻數,確定每個詞在所述分詞語料中的第二出現概率,所述第二出現概率用于表征在給定一詞的情況下,出現另一個詞的概率;
根據每三個詞在所述分詞語料中一起出現的頻數,確定每個詞在所述分詞語料中的第三出現概率,所述第三出現概率用于表征所述三個詞中,給定一個詞的情況下,同時出現另外兩個詞的概率;
若任一所述詞對應的第三出現概率等于0,則根據所述詞的第一出現概率和第二出現概率對第三出現概率進行概率平滑;
根據每個詞在所述分詞語料中的所述第一出現概率、所述第二出現概率和所述第三出現概率對語音識別模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910878880.5/1.html,轉載請聲明來源鉆瓜專利網。





