[發明專利]一種實體發現與實體鏈接的聯合處理方法及裝置在審
| 申請號: | 201810744366.8 | 申請日: | 2018-07-09 |
| 公開(公告)號: | CN110765271A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 丁磊;童毅軒;董濱;姜珊珊;張永偉 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33 |
| 代理公司: | 11243 北京銀龍知識產權代理有限公司 | 代理人: | 黃燦;姜精斌 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 鏈接 聯合處理 實體發現 計算機可讀存儲介質 實體發現過程 在線訓練 聯合 | ||
1.一種實體發現與實體鏈接的聯合處理方法,其特征在于,包括:
構建實體發現和實體鏈接的聯合標簽,所述聯合標簽包括候選詞在待處理文本中的位置、候選詞的類型及其在知識庫中的一個候選鏈接實體,所述候選詞為在所述待處理文本中位置連續且不超過預設數量的單詞組成的單詞序列;
利用預先生成的最優標簽序列生成模型,從候選標簽序列的集合中生成所述待處理文本的目標標簽序列,所述候選標簽序列為候選詞序列中每個候選詞的一個聯合標簽組成的序列,所述候選詞序列為待處理文本中位置連續且互不重疊的候選詞組成的序列;
將目標聯合標簽對應的候選詞中的實體發現,鏈接到所述目標聯合標簽中的候選鏈接實體,所述目標聯合標簽為所述目標標簽序列中的聯合標簽。
2.如權利要求1所述的聯合處理方法,其特征在于,還包括:
獲取人工標注的所述待處理文本的目標標簽序列;
根據所述最優標簽序列生成模型生成的目標標簽序列以及人工標注的目標標簽序列,更新所述最優標簽序列生成模型。
3.如權利要求1或2所述的聯合處理方法,其特征在于,所述構建實體發現和實體鏈接的聯合標簽的步驟,包括:
針對待處理文本中的每個候選詞,在知識庫查詢該候選詞對應的候選鏈接實體;
根據查詢到的候選詞對應的候選鏈接實體以及候選詞在所述待處理文本中的起始位置及結束位置,生成該候選詞的聯合標簽,其中,每個聯合標簽對應于該候選詞的一個候選鏈接實體。
4.如權利要求3所述的聯合處理方法,其特征在于,所述利用預先生成的最優標簽序列生成模型,從候選標簽序列的集合中生成所述待處理文本的目標標簽序列的步驟,包括:
從所述待處理文本的第一個單詞開始,依次執行以下處理,直至最后一個單詞:以當前處理的單詞作為結束單詞,確定至少一個當前候選詞;針對每個當前候選詞,將該當前候選詞的聯合標簽分別與前一相鄰文本的k個最優標簽序列拼接,生成當前文本的候選標簽序列,所述當前文本為所述待處理文本截止到結束單詞時的文本,所述前一相鄰文本為所述待處理文本截止到與當前候選詞相鄰的前一個單詞時的文本;基于多類型特征,從當前文本的候選標簽序列中確定出前k個最優的候選標簽序列,得到當前文本的k個最優標簽序列;
從所述待處理文本的k個最優標簽序列中,選擇首個最優標簽序列,得到待處理文本的目標標簽序列。
5.如權利要求4所述的聯合處理方法,其特征在于,所述多類型特征包括以下特征中的一種或多種:實體發現特征;實體鏈接特征;以及,實體發現與實體鏈接的聯合特征。
6.一種實體發現與實體鏈接的聯合處理裝置,其特征在于,包括:
標簽構建單元,用于構建實體發現和實體鏈接的聯合標簽,所述聯合標簽包括候選詞在待處理文本中的位置、候選詞的類型及其在知識庫中的一個候選鏈接實體,所述候選詞為在所述待處理文本中位置連續且不超過預設數量的單詞組成的單詞序列;
目標標簽序列生成單元,用于利用預先生成的最優標簽序列生成模型,從候選標簽序列的集合中生成所述待處理文本的目標標簽序列,所述候選標簽序列為候選詞序列中每個候選詞的一個聯合標簽組成的序列,所述候選詞序列為待處理文本中位置連續且互不重疊的候選詞組成的序列;
實體鏈接單元,用于將目標聯合標簽對應的候選詞中的實體發現,鏈接到所述目標聯合標簽中的候選鏈接實體,所述目標聯合標簽為所述目標標簽序列中的聯合標簽。
7.如權利要求6所述的聯合處理裝置,其特征在于,還包括:
模型更新單元,用于獲取人工標注的所述待處理文本的目標標簽序列;根據所述最優標簽序列生成模型生成的目標標簽序列以及人工標注的目標標簽序列,更新所述最優標簽序列生成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810744366.8/1.html,轉載請聲明來源鉆瓜專利網。





