[發明專利]一種基于實體知識庫的語言模型平滑方法有效
| 申請號: | 201711265786.X | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN107958068B | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 趙峰;田澤亮;沈燏;金海 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/36;G06F40/295;G06F40/30 |
| 代理公司: | 42201 華中科技大學專利中心 | 代理人: | 廖盈春;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實體 知識庫 語言 模型 平滑 方法 | ||
1.一種基于實體知識庫的語言模型平滑方法,其特征在于,包括以下步驟:
(1)預先確定實體知識庫,所述實體知識庫作為命名實體鏈接的目標,根據實體對實體知識庫中的實體信息建立索引,以方便后續步驟中檢索查詢實體知識庫中的實體信息;
(2)采用最大似然估計法,對語料庫中的每篇文檔構建原始文檔語言模型,以及對整個語料庫構建語料庫語言模型;
(3)使用命名實體識別技術識別每篇文檔中的命名實體,使用命名實體鏈接技術將識別的命名實體鏈接到實體知識庫中實體上,將每篇文檔與實體知識庫之間建立聯系,以方便后續從實體知識庫中提取和文檔主題相關的信息;
(4)根據實體鏈接,提取每篇文檔中的命名實體在實體知識庫中的信息,融合成每篇文檔的背景知識文檔,采用最大似然估計法,構建背景知識語言模型,這樣的背景知識語言模型是以文檔中的實體作為橋梁,從實體知識庫中得到的,包含文檔背景知識語義信息的語言模型,它與文檔語義主題密切相關的,用來衡量查詢語句中的單詞與文檔語義主題之間的相關性;
(5)結合背景知識語言模型和語料庫語言模型兩種語言模型信息,對原始文檔語言模型進行兩次平滑,使得平滑后的語言模型具有更高的魯棒性和準確度;
所述步驟(5)包括以下子步驟:
(5-1)對于語料庫中的每篇文檔d,獲取步驟(2)中得到的原始文檔語言模型θd原和步驟(4)中得到的背景知識語言模型θd_E,根據計算公式得到一級平滑語言模型θ1,其中P(wi|θ1)表示單詞wi在一級平滑語言模型θ1中的概率,|d|表示文檔d中的單詞總個數;
(5-2)根據語料庫語言模型θD對子步驟(5-1)中得到一級平滑語言模型θ1進行二級平滑,計算公式為
計算得到最終平滑后的語言模型θd_smoothed,其中P(wi|θd_smoothed)表示單詞wi在最終平滑后的語言模型θd_smoothed中的概率,|d|表示文檔d中的單詞總個數,α和β需要確定的兩個自由參數;
(5-3)步驟(5-2)中所述自由參數α和β,使用grid search方法來學習得到參數的最優值,其中參數α和β的候選取值從{0,0.1,0.2,…,0.9,1}中選取,評價指標采用平均準確率,訓練數據集使用信息檢索領域中公開的測試集,所述訓練測試集使用clueweb09或clueweb12;
(5-4)步驟(5-2)中計算得到平滑后的語言模型θd_smoothed為對背景知識語言模型進行兩級平滑的最終結果。
2.根據權利要求1所述的基于實體知識庫的語言模型平滑方法,其特征在于,所述步驟(1)包括以下子步驟:
(1-1)根據系統中包含的文檔的特點,構建或選取已有的合適的實體知識庫,作為文檔中命名實體鏈接的目標;
(1-2)對實體知識庫進行過濾處理,只保留描述實體信息的文本;
(1-3)根據能唯一確定一個實體的實體ID,對與該實體ID對應的文本建立索引。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711265786.X/1.html,轉載請聲明來源鉆瓜專利網。





