[發明專利]一種語言模型建立方法及裝置有效
| 申請號: | 201810360452.9 | 申請日: | 2018-04-20 |
| 公開(公告)號: | CN110390093B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 張鵬 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 模型 建立 方法 裝置 | ||
本發明實施例提供一種語言模型建立方法及裝置。所述方法包括獲取語料庫,語料庫包括至少一個經過分詞處理的句子;根據策略函數對所述語料庫中的每個句子進行篩選,將滿足預設篩選條件的句子組成分詞詞典;通過對分詞詞典中每個句子的分析得到語言模型;用語言模型對預先獲取的聲學模型進行解碼以計算損失函數;若根據損失函數和預設的獎勵函數得到的獎勵值滿足預設的優化條件,則判斷所述語言模型建立完成,本發明實施例通過策略函數對獲取的語料庫進行篩選,然后將得到語言模型對聲學模型進行解碼得到CTC函數,再通過得到的獎勵函數對策略函數進行優化改進,從而通過強化學習的方法快速得到需要的語言模型,且能夠提高語音識別的準確率。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種語言模型建立方法及裝置。
背景技術
語言模型是語音識別的重要組成部分,一個好的語言模型能夠大大提升語音識別的準確度,如一個人說的“蘋果”但語言模型里沒有的話,模型是不能正常識別出該詞匯的。如今流行的建立語言模型工具為Kenlm,它基于N-gram語言模型,采用C++編寫。輸入語料庫為已經分好詞的文本文件,輸出為詞的前后概率,即一個詞出現在前后文情況下的概率??梢钥闯觯糨斎氲姆衷~文本文件越大,每個詞在不同場景下出現的頻次越高,語言模型的詞典越大則最終獲得的語言模型更好。
為了得到語言模型,需要好的分詞技術,如今流行的分詞技術框架都是基于人工標注的分詞語料庫,一般而言它的建立需經過以下幾個步驟:1)網絡收集的文本首先經過清洗、預處理等程序得到較為干凈的文本文件。該文本文件需保證其領域適用性、詞匯量等要求。2)該文件經過表現較好的分詞軟件進行分詞,得到絕大部分詞都已經分好的語料庫。該分詞軟件通常使用如哈工大的分詞器、結巴分詞、斯坦福分詞器等。3)由于分詞軟件得到的文本會帶有一些錯誤尤其是領域不匹配或對方詞典外的詞。被錯誤分詞的概率一般而言在5%左右。此時需要人手工從全文本中尋找并去修正這些錯誤。4)被修正后的文本會被再次的校對,檢驗其前后一致性等情況。
可以看出以上步驟非常依賴于人工并且非常耗時。與此同時由于需要多人參與,最終得到的詞典依然面臨著前后不一致、錯誤分詞等情況,從而導致最終得到的語言模型不佳,語音識別準確率不高。
發明內容
本發明實施例提供一種語言模型建立方法及裝置,用以解決現有技術中非常依賴于人工并且非常耗時。與此同時由于需要多人參與,最終得到的詞典依然面臨著前后不一致、錯誤分詞等情況,從而導致最終得到的語言模型不佳,語音識別準確率不高。
第一方面,本發明實施例提供了一種語言模型的建立方法,包括:
獲取語料庫,所述語料庫包括至少一個經過分詞處理的句子;
根據策略函數對所述語料庫中的每個句子進行篩選,將滿足預設篩選條件的句子組成分詞詞典;
通過對所述分詞詞典中每個句子的分析得到語言模型;
用所述語言模型對預先獲取的聲學模型進行解碼以計算損失函數;
若根據所述損失函數和預設的獎勵函數得到的獎勵值滿足預設的優化條件,則判斷所述語言模型建立完成。
第二方面,本發明實施例提供了一種語言模型的建立裝置,包括:
獲取模塊,用于獲取語料庫,所述語料庫包括至少一個經過分詞處理的句子;
策略模塊,用于根據策略函數對所述語料庫中的每個句子進行篩選,將滿足預設篩選條件的句子組成分詞詞典;
分析模塊,用于通過對所述分詞詞典中每個句子的分析得到語言模型;
解碼模塊,用于用所述語言模型對預先獲取的聲學模型進行解碼以計算損失函數;
獎勵模塊,用于若根據所述損失函數和預設的獎勵函數得到的獎勵值滿足預設的優化條件,則判斷所述語言模型建立完成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810360452.9/2.html,轉載請聲明來源鉆瓜專利網。





