[發明專利]一種基于上下文語義關系和文檔一致性約束的實體鏈接方法在審
| 申請號: | 202110182336.4 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112861538A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 張海軍;伍映吉 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 上下文 語義 關系 文檔 一致性 約束 實體 鏈接 方法 | ||
1.一種基于上下文語義關系和文檔一致性約束的實體鏈接方法,其特征在于:所述方法包括以下步驟:
A、數據預處理:對實驗數據集中選擇未標記的文檔和維基百科數據進行預處理,因為當使用多個數據集時候,會存在以下兩個問題:多個數據集的數據組織格式不統一;部分數據集的實體標注不完整;
B、候選實體生成:因為本步驟最初所選擇的候選實體集合的錨定實體信息都來源于維基百科,所以通過維基百科來產生弱監督,通過將候選實體生成分為兩個候選實體,來篩選得到高召回率的候選實體集:先使用Ganea and Hofmann預處理技術進行粗召回,再創建連接圖進行精召回;
C、候選實體消歧:將步驟B獲得的候選實體消歧,本步驟不僅需要考慮實體與其局部上下文之間的關系,而且還要考慮在文檔中實體與實體之間的連貫性;從這兩個方面進行建模,根據得分高的作為候選實體集合中的正確選項。
2.根據權利要求1所述方法,其特征在于:所述步驟A包括以下步驟:
A1、針對實體標注不完整數據進行補全:針對原始的CoNLL 2003數據集包含的英語部分,將對語言無關的命名實體進行識別并剔除;通過實體嵌入,使用deep-ed預訓練技術的Word2Vec來提取300維詞向量;
A2、部分數據集的實體標注不完整,需要通過Wikipedia、YAGO、Freebase知識圖譜進行實體標注。
3.根據權利要求2所述方法,其特征在于:所述步驟B包括以下步驟:
B1、使用Ganea and Hofmann預處理技術進行粗召回:
將步驟A得到的候選列表進行過濾,Ganea and Hofmann預處理技術使用一個模型,來衡量在嵌入空間中實體e、指代跨度m、及其周圍的上下文窗口c中的單詞w之間的相似度q為;
是對實體e和單詞w的外部詞嵌入,p為實驗結合準確率,則有根據Pwiki(e|m)提取前4個分數最高的候選,Nq=4;根據qwiki(e|m,c)選擇3個分數最高的候選Nq=3,此時召回率R為97.2%;
最少需要兩個候選實體集合列表才能保持高的召回率;
B2、使用Wikipedia鏈接統計進一步減少候選實體列表,創建一個連接圖進行精召回,實體作為所述連接圖中的頂點;所述連接圖定義了概率圖模型的結構,本步驟用該連接圖來對候選實體列表進行排名;本步驟只為每個指代實體選擇最高的候選實體,并且仍然保持較高的召回率;
B21、進行無向圖構建,從Wikipedia中構建無向圖,圖中的頂點為Wikipedia實體;鏈接頂點eu和ev,需要滿足如下條件:
(1)D為Wikipedia的文章描述,且eu和ev同時出現在文章中mi;
(2)D包含eu和ev,且eu和ev的距離小于L個實體;
B22、進行模型優化,考慮未標記(非維基百科)的文檔;因此本步驟在優化訓練文檔的同時,也在測試時優化新的未貼標簽的文檔;
因此,為文檔D中的每個指代實體mi最多生成Nq+Np個候選者,將文檔D中的實體定義一個概率模型:
如果ei和ej在連接圖中被鏈接,則否認為大于0的正數;因為該模型根據分配中未鏈接實體對的數量評分實體e1,...,en;使用LBP的max-product版本來產生近似邊際:.
候選數量的一個根據rwiki(ei|D)排序的函數;將候選集從Nq+Np=7到Nw=2保持了93.9%的召回率;這個遺留的Nq+Np-Nw實體被作為負樣本Ei去訓練消歧模型。
4.根據權利要求3所述方法,其特征在于:所述步驟C包括以下步驟:
C1、計算實體上下文得分,通過實體上下文得分進行候選實體與文章局部相關性篩選;選擇得分較高的候選實體;
mi為指代實體,ci為圍繞該指代實體的上下文窗口,ξ(ei,ej)是成對的兼容性評分即相似性,αij是注意力權重,衡量位置j處的實體相對于預測實體ei的相關性,其中本地分數φ與Ganea and Hofmann預處理技術中使用的分數相同,兼容性分數計算公式為:
C2、計算實體相關性得分,通過實體相關性計算實體與全文的匹配度關系,選擇得分較高的候選實體,Xei和Xej∈Rde是外部實體嵌入,使用外部的詞嵌入得到,是對角矩陣;注意力權重計算公式:
其中,A屬于是一個對角矩陣,函數h(mi,ci)將文檔指代的實體與上下文映射到空間,選擇得分較高的候選實體作為候選實體集合中的正確選項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110182336.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗風壓維護板、制作方法及其圍護結構
- 下一篇:一種廣告燈牌





