[發明專利]一種實體發現與實體鏈接的聯合處理方法及裝置在審
| 申請號: | 201810744366.8 | 申請日: | 2018-07-09 |
| 公開(公告)號: | CN110765271A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 丁磊;童毅軒;董濱;姜珊珊;張永偉 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33 |
| 代理公司: | 11243 北京銀龍知識產權代理有限公司 | 代理人: | 黃燦;姜精斌 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 鏈接 聯合處理 實體發現 計算機可讀存儲介質 實體發現過程 在線訓練 聯合 | ||
本發明實施例提供了一種實體發現與實體鏈接的聯合處理方法及裝置。本發明實施例提供的實體發現與實體鏈接的聯合處理方法、裝置及計算機可讀存儲介質,可以在實體鏈接過程中聯合實體發現過程,從而提高實體鏈接的準確性。并且,本發明實施例還可以通過在線訓練相關模型,進一步提高實體鏈接的性能。
技術領域
本發明涉及語言信息處理技術領域,具體涉及一種實體發現與實體鏈接的聯合處理方法及裝置。
背景技術
發現文本中的指代實體的實體詞并將其鏈接到知識庫的無歧義實體(entity),從而將文本中的“實體發現(mention,也稱作實體提及)”與語義知識庫中的實體(entity)相關聯,實現文本內容語義化,是后續的信息檢索和抽取、知識工程等功能的基礎支撐。
目前,實體發現和實體鏈接主要采用管道式的方法,即先發現文本中的實體詞,再將實體詞鏈接到知識庫中的實體上,兩部分是相互獨立的。這種方法會造成錯誤的傳播,而且無法利用兩部分之間的關聯信息。因此,需要一種方法,提高實體鏈接的準確性。
發明內容
本發明實施例要解決的技術問題是提供一種實體發現與實體鏈接的聯合處理方法及裝置,通過聯合標簽將實體發現和實體鏈接過程相聯合,可以提高實體鏈接的準確性。
為解決上述技術問題,本發明實施例提供的實體發現與實體鏈接的聯合處理方法,包括:
構建實體發現和實體鏈接的聯合標簽,所述聯合標簽包括候選詞在待處理文本中的位置、候選詞的類型及其在知識庫中的一個候選鏈接實體,所述候選詞為在所述待處理文本中位置連續且不超過預設數量的單詞組成的單詞序列;
利用預先生成的最優標簽序列生成模型,從候選標簽序列的集合中生成所述待處理文本的目標標簽序列,所述候選標簽序列為候選詞序列中每個候選詞的一個聯合標簽組成的序列,所述候選詞序列為待處理文本中位置連續且互不重疊的候選詞組成的序列;
將目標聯合標簽對應的候選詞中的實體發現,鏈接到所述目標聯合標簽中的候選鏈接實體,所述目標聯合標簽為所述目標標簽序列中的聯合標簽。
優選的,上述聯合處理方法還包括:
獲取人工標注的所述待處理文本的目標標簽序列;
根據所述最優標簽序列生成模型生成的目標標簽序列以及人工標注的目標標簽序列,更新所述最優標簽序列生成模型。
優選的,所述構建實體發現和實體鏈接的聯合標簽的步驟,包括:
針對待處理文本中的每個候選詞,在知識庫查詢該候選詞對應的候選鏈接實體;
根據查詢到的候選詞對應的候選鏈接實體以及候選詞在所述待處理文本中的起始位置及結束位置,生成該候選詞的聯合標簽,其中,每個聯合標簽對應于該候選詞的一個候選鏈接實體。
優選的,所述利用預先生成的最優標簽序列生成模型,從候選標簽序列的集合中生成所述待處理文本的目標標簽序列的步驟,包括:
從所述待處理文本的第一個單詞開始,依次執行以下處理,直至最后一個單詞:以當前處理的單詞作為結束單詞,確定至少一個當前候選詞;針對每個當前候選詞,將該當前候選詞的聯合標簽分別與前一相鄰文本的k個最優標簽序列拼接,生成當前文本的候選標簽序列,所述當前文本為所述待處理文本截止到結束單詞時的文本,所述前一相鄰文本為所述待處理文本截止到與當前候選詞相鄰的前一個單詞時的文本;基于多類型特征,從當前文本的候選標簽序列中確定出前k個最優的候選標簽序列,得到當前文本的k個最優標簽序列;
從所述待處理文本的k個最優標簽序列中,選擇首個最優標簽序列,得到待處理文本的目標標簽序列。
優選的,所述多類型特征包括以下特征中的一種或多種:實體發現特征;實體鏈接特征;以及,實體發現與實體鏈接的聯合特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810744366.8/2.html,轉載請聲明來源鉆瓜專利網。





