[發明專利]語音識別模型分詞訓練方法、系統、移動終端及存儲介質有效
| 申請號: | 201910878880.5 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110853625B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 徐敏;李稀敏;肖龍源;蔡振華;劉曉葳;王靜 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 模型 分詞 訓練 方法 系統 移動 終端 存儲 介質 | ||
本發明適用于語音識別技術領域,提供了一種語音識別模型分詞訓練方法、系統、移動終端及存儲介質,該方法包括:收集本地存儲的文本語料,設置組詞總數,計算每個當前文字與下一文字之間的組合頻數;當判斷到組合頻數大于第一頻數閾值時,將當前文字與下一文字進行組詞并標記為一個整體,直至最長組合頻數小于等于第二頻數閾值,停止組詞,以得到組詞詞典;將組詞詞典與原始詞典進行合并,并根據合并后的詞典對文本語料進行分詞,以得到分詞語料;根據分詞語料對語音識別模型進行訓練。本發明通過構造組詞詞典對原始詞典進行擴充,使得不需要額外收集用于子串標注學習的訓練語料,也不需要事先進行人工分詞或者采用其他分詞算法進行分詞。
技術領域
本發明屬于語音識別技術領域,尤其涉及一種語音識別模型分詞訓練方法、系統、移動終端及存儲介質。
背景技術
在中文中,字是最小的單位,但是很多時候,字與字組合成的詞具有更強的語義,因此,在大多數應用中,將詞看做一個整體是更為合理的,但是中文中并沒有像英文中用于語義分割的空格,這就導致了計算機無法區分字與詞、詞與詞之間的邊界,因此催生了中文分詞這一研究領域。中文分詞是目前在中文搜索引擎、中文自然語言處理包括漢語語音識別語言模型建模等領域的必備處理步驟。
中文分詞方法可分為基于規則的方法、基于傳統統計機器學習的方法、基于語義的方法以及基于理解的方法。基于規則的方法主要是最大匹配方法,最大匹配方法又可進一步細分為正向最大匹配方法和逆向最大匹配方法。基于統計的方法是一種使用傳統機器學習中的馬爾科夫模型、最大熵模型或者條件隨機場模型,本質上是字串或者詞串標注學習。基于語義的方法引入了語義分析,主要包括擴充轉移網絡法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、矩陣約束法等。基于理解的方法通過讓計算機模擬人對句子的理解達到識別詞的的效果,主要分為基于專家系統的分詞法和基于神經網絡的分詞法。
另一方面,因為中文字典規模大,字與字組成詞的組合是字典規模的指數級,即使有很多字與字不會組合成詞,但規模仍是指數級的,因此,不存在一種方法窮舉出所有的詞,并且待分詞的文本是千變萬化的,文本中總會存在詞典中沒有詞(集外詞,OOV),這就需要分詞算法能夠根據文本組合出新詞。
目前使用最廣泛效果最好的分詞方法是基于條件隨機場的方法。基于條件隨機場的分詞方法雖然取得了目前最好的分詞效果,也能在一定程度上解決集外詞的問題,但是該方法使用過程中,訓練文本需要進行分詞,若采用人工分詞,因為文本量級大,會非常耗時;而若采用已有分詞算法,又會將已有分詞算法的不足引入到該分詞算法中,繼而降低了后續語音識別模型的識別效率。
發明內容
本發明實施例要解決的技術問題是如何在不使用外部資源的情況下,盡量減少人工參與,又能提升分詞性能從而進一步提升語音識別語言模型的性能。
本發明實施例是這樣實現的,一種語音識別模型分詞訓練方法,所述方法包括:
收集本地存儲的文本語料,設置組詞總數,并分別計算所述文本語料中每個當前文字與下一文字之間的組合頻數;
當判斷到所述組合頻數大于第一頻數閾值時,將所述當前文字與所述下一文字進行組詞,并將組詞后的詞標記為一個整體,直至最長組合頻數小于等于第二頻數閾值,停止組詞,以得到組詞詞典;
將所述組詞詞典與本地預存儲的原始詞典進行合并,并根據合并后的詞典對所述文本語料進行分詞,以得到所述分詞語料;
根據所述分詞語料對語音識別模型進行訓練。
更進一步的,所述分別計算所述文本語料中每個當前文字與下一文字之間的組合頻數的步驟之前,所述方法還包括:
對所述文本語料進行特殊字符識別,并根據識別結果進行字符刪除;
對所述文本語料進行標點識別,并根據識別結果將識別到的標點符號轉為為換行符;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910878880.5/2.html,轉載請聲明來源鉆瓜專利網。





