[發明專利]限定領域的實體鏈接方法和裝置在審
| 申請號: | 202010108590.5 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN113297386A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 侯磊;張馨如;史佳欣;李涓子;張鵬;唐杰 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 鄭朝然 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 限定 領域 實體 鏈接 方法 裝置 | ||
本發明實施例提供一種限定領域的實體鏈接方法和裝置,所述限定領域的實體鏈接方法包括:通過實體提及?知識庫實體字典,獲取待鏈接文本中的實體提及和候選實體集;將獲取的所述實體提及和候選實體集的全局特征和局部特征輸入到實體消歧模型,獲得所述實體消歧模型輸出的所述候選實體集中的候選實體是所述實體提及指代的知識庫實體的概率;根據所述候選實體集中的候選實體是所述實體提及指代的知識庫實體的概率,確定待鏈接文本的實體鏈接。本發明實施例的限定領域的實體鏈接方法,可以免去人工標注工作,且鏈接準確率高。
技術領域
本發明涉及實體鏈接技術領域,更具體地,涉及一種限定領域的實體鏈接方法和裝置。
背景技術
實體鏈接的目標在于將文本中出現的實體提及鏈接到知識庫實體上。這是自然語言處理(NLP)領域中的基礎任務,能夠為領域內的其他任務提供支持,例如問答系統、關系抽取等,因此,近年來,實體鏈接的相關技術蓬勃發展。
實體鏈接的主要挑戰在于實體提及的歧義性。一個實體提及可能指代多個知識庫實體,而一個知識庫實體往往有多種提及方式。這一技術的另一挑戰是,在實踐中,一個實體鏈接系統應當鏈接到更有意義的,更具體化的實體。
現有的實體鏈接方法通常包括四個步驟:1.從文本中找到所有的實體提及;2.找到實體提及有可能指代的所有的知識庫實體;3.對實體提及、知識庫實體、上下文信息等進行特征表示,這一步驟往往通過表示學習來得到在同一語義空間的特征向量;4.使用分類或學習排序算法進行實體消歧。
現有的實體鏈接方法面臨如下挑戰:1.對于通用領域的實體鏈接,由于一個實體提及可能指代上百知識庫實體,而對應的神經網絡模型的參數數量將使得模型的訓練效率極低,對應地,準確率也大打折扣。2.面向通用領域的實體鏈接方法往往會鏈接到過多的泛化的、通用的實體,這些鏈接結果在實際應用,尤其是面向大眾用戶的應用中意義不大。3.對于限定領域的實體鏈接模型的訓練需要大量領域標注數據,而數據的標注成本太高而難以實現。
發明內容
本發明實施例提供一種克服上述問題或者至少部分地解決上述問題的限定領域的實體鏈接方法、裝置、電子設備和可讀存儲介質。
第一方面,本發明實施例提供一種限定領域的實體鏈接方法,包括:通過實體提及-知識庫實體字典,獲取待鏈接文本中的實體提及和候選實體集;將獲取的所述實體提及和候選實體集的全局特征和局部特征輸入到實體消歧模型,獲得所述實體消歧模型輸出的所述候選實體集中的候選實體是所述實體提及指代的知識庫實體的概率;根據所述候選實體集中的候選實體是所述實體提及指代的知識庫實體的概率,確定待鏈接文本的實體鏈接;其中,所述實體提及-知識庫實體字典為,根據預先構建的領域數據集確定,所述領域數據集包括目標百科中現存的實體提及和對應的知識庫實體;所述實體消歧模型使用多層感知機來整合不同的特征,使用圖卷積網絡在候選實體和其上下文實體之間傳遞信息,所述實體消歧模型為,以所述領域數據集中任一訓練語料的全局特征樣本數據和局部特征樣本數據為樣本,以所述任一訓練語料中的實體提及指代的知識庫實體的概率結果為樣本標簽訓練得到。
在一些實施例中,所述通過實體提及-知識庫實體字典,獲取待鏈接文本中的實體提及和候選實體集,包括:通過所述實體提及-知識庫實體字典,構建用于字符串匹配的字典樹;采取基于所述字典樹的字符串匹配算法得到文本中出現的所有實體提及,對于存在沖突的實體提及,選取最長的或者出現次數最多的實體提及作為匹配結果,同時得到所述候選實體集。
在一些實施例中,所述全局特征樣本數據和所述局部特征樣本數據為,通過對所述領域數據集中的訓練語料進行向量訓練時獲取;其中所述對所述領域數據集中的訓練語料進行向量訓練包括:對所述訓練語料中任一實體和詞得到領域向量表示和開放域向量表示,在進行特征抽取的計算過程中,將所述領域向量和所述開放域向量連接作為實體和詞的向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010108590.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:樣本分析系統
- 下一篇:服務的處理方法、設備及存儲介質





