[發明專利]基于主題實體語境迭代優化的全局實體鏈接方法在審
| 申請號: | 202110698612.2 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113360605A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 王杰;蔡健宇;張占秋 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/295 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;付久春 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 實體 語境 優化 全局 鏈接 方法 | ||
本發明公開了一種基于主題實體語境迭代優化的全局實體鏈接方法,包括:步驟1,以預先訓練好的主題實體迭代語境細化模型,對包含多個指稱的文檔和包含多個候選實體的知識圖譜進行實體鏈接處理;步驟2,所述主題實體迭代語境細化模型處理過程中,對知識圖譜中每個指稱的候選實體進行迭代優化打分,最終選擇得分最高的候選實體作為實體鏈接的結果。該方法計算效率高,性能優異。
技術領域
本發明涉及自然語言處理和知識抽取領域,尤其涉及一種基于主題實體語境迭代優化的全局實體鏈接方法。
背景技術
實體鏈接(EL)任務旨在將文本中的指稱(mention)鏈接至知識圖譜中對應的目標實體。實體鏈接不僅是構建高質量的知識圖譜的關鍵步驟,而且還可以應用于諸多其他任務,如信息提取、語義搜索、問答系統等。然而,由于自然語言的存在多對多的歧義性(一個指稱可能在不同的語境中指代不同的實體,而一個實體也可在文本中以不同的指稱出現),使得實體鏈接這項任務是極具挑戰性的。
根據所利用的信息的粒度不同,實體鏈接可以被分為兩類:局部模型(localmodels)與全局模型(global models)。其中,局部模型只使用每個指稱的文本語境信息(即指稱周圍的詞)進行實體鏈接;全局模型則進一步使用了文檔級別的信息,它假設一個文檔中所有指稱所對應的目標實體都是主題一致的,即每一個指稱的實體鏈接結果會影響同一文檔內其他指稱的連接結果。與局部模型相比,全局模型能夠顯著提升實體鏈接的性能。
盡管全局模型與局部模型相比帶來了很大的性能提升,但在訓練和推理階段,它們往往要付出高昂的計算成本。這一局限性使得這些全局模型難以處理具有大量指稱和候選實體的語料庫。如以目前較知名的全局模型DeepED為例,它使用條件隨機場(CRF)來建模主題一致性。這一方法的優勢在于:1)在各個數據集上都能達到較高的性能;2)這一模型能夠同時處理文檔中的所有指稱。然而,它的時間復雜度隨候選實體的數量呈平方增長,這是因為DeepED需要計算兩個任意指稱的每對候選實體之間的一致性得分。為了克服這一局限性,目前的DCA模型將實體鏈接建模為一個序列決策問題,并采用強化學習(RL)方法求解,通過順序地鏈接指稱來建模主題一致性。在這些模型中,當前指稱的實體鏈接決策只依賴于同一文檔中在該指稱前已經鏈接的那些實體。因此,它們的時間復雜性隨著候選實體的數量成線性增長。然而,由于這些方法以順序的方式處理文檔中的指稱,當處理包含大量指稱的長文檔時,這些模型非常耗時。
發明內容
基于現有技術所存在的問題,本發明的目的是提供一種基于主題實體語境迭代優化的全局實體鏈接方法,能解決現有將實體鏈接建模為一個序列決策問題再通過強化學習求解,所存在當處理包含大量指稱的長文檔非常耗時的問題,以及現有基于條件隨機場(CRF)的方法所存在的時間復雜度過高的問題。
本發明的目的是通過以下技術方案實現的:
本發明實施方式提供一種基于主題實體語境迭代優化的全局實體鏈接方法,包括:
步驟1,以預先訓練好的主題實體迭代語境細化模型,對包含多個指稱的文檔和包含多個候選實體的知識圖譜進行實體鏈接處理;
步驟2,所述主題實體迭代語境細化模型處理過程中,對知識圖譜中每個指稱的候選實體進行迭代優化打分,最終選擇得分最高的候選實體作為實體鏈接的結果。
由上述本發明提供的技術方案可以看出,本發明實施例提供的基于主題實體語境迭代優化的全局實體鏈接方法,其有益效果為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110698612.2/2.html,轉載請聲明來源鉆瓜專利網。





