[發明專利]一種語言模型建立方法及裝置有效

申請號：	201610052129.6	申請日：	2016-01-26
公開（公告）號：	CN105760361B	公開（公告）日：	2019-06-14
發明（設計）人：	任禾;李軼杰	申請（專利權）人：	北京云知聲信息技術有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G10L15/26;G10L15/06
代理公司：	北京尚倫律師事務所 11477	代理人：	張俊國
地址：	100191 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語言模型建立方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語言模型建立方法，其特征在于，包括：

獲取預設領域的語料庫和通用語言模型，所述語料庫包括所述預設領域的多個元素以及每個元素在所述語料庫中所占的第一概率，所述通用語言模型包括多個元素以及每個元素在所述通用語言模型中所占的第二概率，所述元素包括字、詞以及字和/或詞的組合中的至少一種；

判斷所述元素是否存在于所述語料庫和/或所述通用語言模型中；

根據所述判斷結果，確定所述元素對應的第三概率；

根據所述元素對應的第三概率，建立所述預設領域的個性化語言模型；

所述根據所述判斷結果，確定所述元素對應的第三概率，包括：

當所述元素只存在于所述語料庫中時，將所述元素在所述語料庫中所占的第一概率乘以第一預設系數，獲得所述元素對應的第三概率，所述第一預設系數為小于1的正數；或者

所述根據所述判斷結果，確定所述元素對應的第三概率，包括：

當所述元素只存在于所述通用語言模型中時，將所述元素在所述通用語言模型中對應的第二概率乘以第二預設系數，獲得所述元素對應的第三概率，所述第二預設系數大于所述第一預設系數，所述第二預設系數為小于1的正數；或者

所述根據所述判斷結果，確定所述元素對應的第三概率，包括：

當所述元素同時存在于所述語料庫和所述通用語言模型中時，將所述元素在所述語料庫中所占的第一概率乘以第三預設系數，得到第一中間概率；

將所述元素在所述通用語言模型中所占的第二概率乘以第四預設系數，得到第二中間概率；

將所述第一中間概率和所述第二中間概率相加，得到所述元素對應的第三概率；

其中，所述第三預設系數和所述第四預設系數為小于1的正數，所述第四預設系數大于所述第三預設系數，所述第三預設系數和所述第四預設系數的和為1。

2.根據權利要求1所述的方法，其特征在于，所述根據所述元素對應的第三概率，建立所述預設領域的個性化語言模型，包括：

將所述元素對應的第三概率確定為所述元素在所述個性化語言模型中所占的概率；

根據所述元素在所述個性化語言模型中所占的概率，融合所述語料庫中的元素和所述通用語言模型中的元素，得到所述預設領域的個性化語言模型。

3.一種語言模型建立裝置，其特征在于，包括：

獲取模塊，用于獲取預設領域的語料庫和通用語言模型，所述語料庫包括所述預設領域的多個元素以及每個元素在所述語料庫中所占的第一概率，所述通用語言模型包括多個元素以及每個元素在所述通用語言模型中所占的第二概率，所述元素包括字、詞以及字和/或詞的組合中的至少一種；

判斷模塊，用于判斷所述元素是否存在于所述語料庫和/或所述通用語言模型中；

確定模塊，用于根據所述判斷結果，確定所述元素對應的第三概率；

建立模塊，用于根據所述元素對應的第三概率，建立所述預設領域的個性化語言模型；

所述判斷模塊包括：

第一計算子模塊，用于當所述元素只存在于所述語料庫中時，將所述元素在所述語料庫中所占的第一概率乘以第一預設系數，獲得所述元素對應的第三概率，所述第一預設系數為小于1的正數；或者

所述判斷模塊包括：

第二計算子模塊，用于當所述元素只存在于所述通用語言模型中時，將所述元素在所述通用語言模型中對應的第二概率乘以第二預設系數，獲得所述元素對應的第三概率，所述第二預設系數大于所述第一預設系數，所述第二預設系數為小于1的正數；或者

所述判斷模塊包括：

第三計算子模塊，用于當所述元素同時存在于所述語料庫和所述通用語言模型中時，將所述元素在所述語料庫中所占的第一概率乘以第三預設系數，得到第一中間概率；

第四計算子模塊，用于將所述元素在所述通用語言模型中所占的第二概率乘以第四預設系數，得到第二中間概率；

第五計算子模塊，用于將所述第一中間概率和所述第二中間概率相加，得到所述元素對應的第三概率；

4.根據權利要求3所述的裝置，其特征在于，所述建立模塊包括：

確定子模塊，用于將所述元素對應的第三概率確定為所述元素在所述個性化語言模型中所占的概率；

融合子模塊，用于根據所述元素在所述個性化語言模型中所占的概率，融合所述語料庫中的元素和所述通用語言模型中的元素，得到所述預設領域的個性化語言模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京云知聲信息技術有限公司，未經北京云知聲信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610052129.6/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種詞語實時翻譯方法及裝置
下一篇：在白板軟件中導入Excel表格且不改變單元格文本格式的方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】