[發明專利]一種語言模型建立方法及裝置有效

申請號：	201810360452.9	申請日：	2018-04-20
公開（公告）號：	CN110390093B	公開（公告）日：	2023-08-11
發明（設計）人：	張鵬	申請（專利權）人：	普天信息技術有限公司
主分類號：	G06F40/284	分類號：	G06F40/284
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	王瑩;李相雨
地址：	100080 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語言模型建立方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語言模型的建立方法，其特征在于，包括：

獲取語料庫，所述語料庫包括至少一個經過分詞處理的句子；

根據策略函數對所述語料庫中的每個句子進行篩選，將滿足預設篩選條件的句子組成分詞詞典；

通過對所述分詞詞典中每個句子的分析得到語言模型；

用所述語言模型對預先獲取的聲學模型進行解碼以計算損失函數；

若根據所述損失函數和預設的獎勵函數得到的獎勵值滿足預設的優化條件，則判斷所述語言模型建立完成；

所述方法還包括：

若所述獎勵值不滿足預設的優化條件，則判斷所述語言模型沒有完成；

采用策略梯度算法根據所述獎勵函數對所述策略函數進行修正以得到新的策略函數，以使所述新的策略函數對所述語料庫中每個句子重新進行篩選。

2.根據權利要求1所述的方法，其特征在于，所述根據策略函數對所述語料庫中的每個句子進行篩選，將滿足預設篩選條件的句子組成分詞詞典，具體為：

根據策略函數計算所述語料庫中的每個句子的選取概率；

根據預設的篩選概率，將所述選取概率大于所述篩選概率的句子存入所述分詞詞典。

3.根據權利要求1所述的方法，其特征在于，所述通過對所述分詞詞典中每個句子的分析得到語言模型，具體為：

采用Kenlm工具對所述分詞詞典中的每個句子進行解析以得到所述語言模型。

4.根據權利要求1所述的方法，其特征在于，所述損失函數為CTC損失函數。

5.一種語言模型的建立裝置，其特征在于，包括：

獲取模塊，用于獲取語料庫，所述語料庫包括至少一個經過分詞處理的句子；

策略模塊，用于根據策略函數對所述語料庫中的每個句子進行篩選，將滿足預設篩選條件的句子組成分詞詞典；

分析模塊，用于通過對所述分詞詞典中每個句子的分析得到語言模型；

解碼模塊，用于用所述語言模型對預先獲取的聲學模型進行解碼以計算損失函數；

獎勵模塊，用于若根據所述損失函數和預設的獎勵函數得到的獎勵值滿足預設的優化條件，則判斷所述語言模型建立完成；

所述獎勵模塊還用于，若所述獎勵值不滿足預設的優化條件，則判斷所述語言模型沒有完成；相應地，所述策略模塊還用于，采用策略梯度算法根據所述獎勵函數對所述策略函數進行修正以得到新的策略函數，以使所述新的策略函數對所述語料庫中每個句子重新進行篩選。

6.根據權利要求5所述的裝置，其特征在于，所述策略模塊具體用于，根據策略函數計算所述語料庫中的每個句子的選取概率；根據預設的篩選概率，將所述選取概率大于所述篩選概率的句子存入所述分詞詞典。

7.一種電子設備，其特征在于，包括存儲器和處理器，所述處理器和所述存儲器通過總線完成相互間的通信；所述存儲器存儲有可被所述處理器執行的程序指令，所述處理器調用所述程序指令能夠執行如權利要求1至4任一所述的方法。

8.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該計算機程序被處理器執行時實現如權利要求1至4任一所述的方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司，未經普天信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810360452.9/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】