[發明專利]一種離線情況下的實體鏈接方法、裝置及應用在審
| 申請號: | 202310204663.4 | 申請日: | 2023-03-01 |
| 公開(公告)號: | CN116049357A | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 李圣權;卓家雨;毛云青;王國梁;韓致遠 | 申請(專利權)人: | 城云科技(中國)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/237 |
| 代理公司: | 杭州匯和信專利代理有限公司 33475 | 代理人: | 陳江 |
| 地址: | 310052 浙江省杭州市濱江區長*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 離線 情況 實體 鏈接 方法 裝置 應用 | ||
本方案提出了一種離線情況下的實體鏈接方法、裝置及應用,包括以下步驟:獲取一待鏈接文本,對所述待鏈接文本進行編碼分區得到重要詞匯編碼分區和一般詞匯編碼分區;對所述重要詞匯編碼分區進行注意力編碼得到重要詞匯特征,對所述一般詞匯編碼分區進行注意力編碼得到一般詞匯特征;將所述重要詞匯特征和所述一般詞匯特征進行拼接得到待鏈接文本特征;構建特征數據庫,使用所述待鏈接文本特征在所述特征數據庫對候選實體進行鏈接得到目標實體。本方案通過先將待鏈接文本進行編碼分區,并為不同的編碼分區分配不同重要程度的注意力維度來進行特征計算,使得得到的待鏈接文本特征可以更準確的鏈接特征數據庫中的目標實體。
技術領域
本申請涉及算法領域,特別涉及一種離線情況下的實體鏈接方法、裝置及應用。
背景技術
實體鏈接是將文本中特定的字符與知識庫中的實體進行對應,現有的實體鏈接主要分為三個模塊:候選實體生成、候選實體排序以及無鏈接指代預測。
候選實體生成:候選實體生成一般通過兩個方法,一個是基于撒謊的下文擴充法,其通過常用縮略語或者實體全名的部分詞去指代實體,而在上下文中常常伴隨出現他們對應的全名,因此可以利用上下文信息去尋找這些縮略語或者局部詞對應的實體全名,以擴充實體名稱字典;另一個方法是基于搜索引擎的構建方法,其借助搜索引擎google,將實體名稱及簡短的上下文一起提交給Goole?API,然后將返回結果中的wikipedia頁面作為候選實體,或者將Google?API的搜索限定唉wikipedia站點,對返回結果做一些過濾生成候選實體。
候選實體排序:候選實體排序一般通過兩個方法,一個是二分類學習法,即通過給定的實體名稱和候選實體對,利用二分類器決定實體排序;另一個是排序學習法,其利用排序學習框架,使用最大間隔學習法從訓練數據中直接學習候選實體的排序關系并從中選出得分最高的實體。
無鏈接指代預測:無鏈接指代預測是指負責預測輸入文本中哪些實體是無法被鏈接到知識圖譜中取得,這種情況通常是由知識圖譜本身的不完備性導致的,即輸入文本中提及的實體尚未被現有知識圖譜覆蓋。
在現有的離線情況下的業務場景上的候選實體排序主要是基于排序學習在訓練階段直接學習候選實體的排序關系,從而得到最高分的實體,該方案在實驗條件下得到的結果確實非常理想,但是在實際業務環境下,因為用戶輸入的實體格式的不規范性與不確定性,導致實體鏈接在候選排序階段得到的結果不理想,也有選擇加入歷史選擇權重的方案(即在歷史的實體鏈接中,被選為正確答案次數越多,那么后面被召喚的可能性也就越大),但是該方案會導致在某些場景中歷史選擇的權重影響了模型正確的排序,而且在進行實體鏈接時,往往因為模型經過上下文預訓練導致會有實體完全不相似但是語義或者寓意相同的實體被選為候選實體,導致出現明顯的錯誤。
綜上所述,亟需一種可以在離線場景下準確在目標特征庫中鏈接想要的實體,并將其正確排序的方法。
發明內容
本申請方案提供一種離線情況下的實體鏈接方法、裝置及應用,可以通過對實體進行編碼分區的方式進行編碼,從而提高離線模式下實體鏈接的準確度,并通過不同重要程度的特征來減少對特征數據庫進行比對的計算量。
第一方面,本申請提供一種實體鏈接候選實體的方法,包括:
獲取一待鏈接文本,對所述待鏈接文本進行編碼分區得到重要詞匯編碼分區和一般詞匯編碼分區;
對所述重要詞匯編碼分區進行注意力編碼得到重要詞匯特征,對所述一般詞匯編碼分區進行注意力編碼得到一般詞匯特征,所述重要詞匯特征的特征矩陣大于所述一般詞匯特征的特征矩陣;
將所述重要詞匯特征和所述一般詞匯特征進行拼接得到待鏈接文本特征;
構建特征數據庫,所述特征數據庫中包含所有候選實體的特征,使用所述待鏈接文本特征在所述特征數據庫對候選實體進行鏈接得到目標實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于城云科技(中國)有限公司,未經城云科技(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310204663.4/2.html,轉載請聲明來源鉆瓜專利網。





