[發(fā)明專利]一種基于上下文語義關(guān)系和文檔一致性約束的實(shí)體鏈接方法在審
| 申請?zhí)枺?/td> | 202110182336.4 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112861538A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計)人: | 張海軍;伍映吉 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211 |
| 代理公司: | 哈爾濱市陽光惠遠(yuǎn)知識產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 上下文 語義 關(guān)系 文檔 一致性 約束 實(shí)體 鏈接 方法 | ||
本發(fā)明為解決傳統(tǒng)實(shí)體鏈接方法需要大量人工標(biāo)注,所帶來的成本等問題,提出了一種基于上下文語義關(guān)系和文檔一致性約束的實(shí)體鏈接方法。本發(fā)明分為三個步驟:數(shù)據(jù)預(yù)處理,候選實(shí)體生成和候選實(shí)體消歧;在數(shù)據(jù)預(yù)處理階段,解決數(shù)據(jù)存在的噪音問題;在候選實(shí)體生成階段,利用維基百科連接圖的過濾技術(shù),得到具有較高召回率的候選實(shí)體集合;在候選實(shí)體消歧階段,利用候選實(shí)體集合作為弱監(jiān)督約束,考慮實(shí)體與其局部上下文之間的關(guān)系和文檔中實(shí)體與實(shí)體之間的連貫性信息,通過神經(jīng)網(wǎng)絡(luò)進(jìn)行候選實(shí)體消歧,得到最終的實(shí)體鏈接結(jié)果,將候選實(shí)體對應(yīng)到知識圖譜中。
技術(shù)領(lǐng)域
本發(fā)明涉及知識圖譜實(shí)體鏈接領(lǐng)域,具體地,涉及一種基于上下文語義關(guān)系和文檔一 致性約束的實(shí)體鏈接方法。
背景技術(shù)
近年來,隨著人工智能技術(shù)的迅猛發(fā)展,如何通過自然語言處理技術(shù)(NLP)讓機(jī)器實(shí)現(xiàn)人類語言理解受到眾多學(xué)者的關(guān)注。而如何訓(xùn)練計算機(jī)識別文本中的實(shí)體,并將實(shí)體正確無誤的鏈接到數(shù)據(jù)庫中,這是讓計算機(jī)理解人類語言的關(guān)鍵步驟。實(shí)體鏈接(EntityLinking,EL)是指挖掘人類語言文本出現(xiàn)的潛在實(shí)體關(guān)系,并鏈接到所在的知識圖譜實(shí) 體上,解決實(shí)體間存在歧義性(即一詞多義)和多樣性(即多詞一義)的任務(wù)。常用于知 識圖譜的構(gòu)建、信息事件抽取和智能問答等應(yīng)用中。目前傳統(tǒng)的實(shí)體鏈接模型往往依賴于 海量的文本標(biāo)注,存在著需要消耗大量人工、大量時間、大量金錢的問題、且存在受限于 語言和無法快速規(guī)模化的困難。如何利用自然語言處理技術(shù)、機(jī)器學(xué)習(xí)技術(shù)(ML)和深 度學(xué)習(xí)技術(shù)(DL)等前沿方法,自動或者高效進(jìn)行實(shí)體關(guān)系的鏈接,成為了當(dāng)前亟需攻 克的問題。因此,實(shí)體鏈接的方法研究得到了世界范圍內(nèi)研究人員的廣泛關(guān)注。
發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有技術(shù)中的不足,依托上下文語義關(guān)系以及文檔一致性匹配模型, 提出了一種基于上下文語義關(guān)系和文檔一致性約束的實(shí)體鏈接方法。
一種基于上下文語義關(guān)系和文檔一致性約束的實(shí)體鏈接方法:所述方法包括以下步 驟:
A、數(shù)據(jù)預(yù)處理:對實(shí)驗(yàn)數(shù)據(jù)集中選擇未標(biāo)記的文檔和維基百科數(shù)據(jù)進(jìn)行預(yù)處理,因 為當(dāng)使用多個數(shù)據(jù)集時候,會存在以下兩個問題:多個數(shù)據(jù)集的數(shù)據(jù)組織格式不統(tǒng)一;部 分?jǐn)?shù)據(jù)集的實(shí)體標(biāo)注不完整;
B、候選實(shí)體生成:因?yàn)楸静襟E最初所選擇的候選實(shí)體集合的錨定實(shí)體信息都來源于 維基百科,所以通過維基百科來產(chǎn)生弱監(jiān)督,通過將候選實(shí)體生成分為兩個候選實(shí)體,來 篩選得到高召回率的候選實(shí)體集:先使用Ganea and Hofmann預(yù)處理技術(shù)進(jìn)行粗召回,再 創(chuàng)建連接圖進(jìn)行精召回;
C、候選實(shí)體消歧:將步驟B獲得的候選實(shí)體消歧,本步驟不僅需要考慮實(shí)體與其局部上下文之間的關(guān)系,而且還要考慮在文檔中實(shí)體與實(shí)體之間的連貫性;從這兩個方面進(jìn)行建模,根據(jù)得分高的作為候選實(shí)體集合中的正確選項(xiàng)。
進(jìn)一步地,所述步驟A包括以下步驟:
A1、針對實(shí)體標(biāo)注不完整數(shù)據(jù)進(jìn)行補(bǔ)全:針對原始的CoNLL 2003數(shù)據(jù)集包含的英語 部分,將對語言無關(guān)的命名實(shí)體進(jìn)行識別并剔除;通過實(shí)體嵌入,使用deep-ed預(yù)訓(xùn)練技術(shù)的Word2Vec來提取300維詞向量;
A2、部分?jǐn)?shù)據(jù)集的實(shí)體標(biāo)注不完整,需要通過Wikipedia、YAGO、Freebase知識圖譜進(jìn)行實(shí)體標(biāo)注。
進(jìn)一步地,所述步驟B包括以下步驟:
B1、使用Ganea and Hofmann預(yù)處理技術(shù)進(jìn)行粗召回:
將步驟A得到的候選列表進(jìn)行過濾,Ganea and Hofmann預(yù)處理技術(shù)使用一個模型, 來衡量在嵌入空間中實(shí)體e、指代跨度m、及其周圍的上下文窗口c中的單詞w之間的相似度q為;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110182336.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





