[發明專利]實體鏈接語料標注方法和裝置在審
| 申請號: | 202111451201.X | 申請日: | 2021-11-30 |
| 公開(公告)號: | CN114139543A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 李啟睿 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司;螞蟻區塊鏈科技(上海)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 鏈接 語料 標注 方法 裝置 | ||
本說明書實施例提供一種實體鏈接語料標注方法和裝置,方法包括:針對第一原始語料進行命名實體識別,得到預設類型的命名實體構成的命名實體集合;對于命名實體集合中任意的目標命名實體,從標準庫中召回N個目標候選實體;基于目標命名實體、第一原始語料中的目標命名實體的上下文、N個目標候選實體中的第一候選實體,確定目標命名實體與第一候選實體之間的匹配度分數;按照匹配度分數由高到低的順序,確定N個目標候選實體的排序;將標注輔助信息提供給標注人員作為標注的參考,標注輔助信息包括,命名實體集合以及其中每個命名實體對應的N個目標候選實體及其排序。能快速構建特定領域的實體鏈接數據,減少人工標注成本。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及實體鏈接語料標注方法和裝置。
背景技術
實體鏈接作為自然語言處理領域中的一項前沿任務,能夠將文本中的實體指稱(也稱為命名實體或實體提及)與標準知識庫(簡稱標準庫)中的具體實體概念相鏈接,它有助于機器從語義層次理解命名實體的含義,并能夠推動情感計算、語義分析、知識工程等相關領域的發展。
實體鏈接語料標注,就是將文本中的實體指稱和對應的標準實體標注為實體指稱,標準實體對,方便后續構造樣本用于模型訓練和效果評估。
目前實體鏈接相關的研究較多,但是缺少開放的語料庫。另外不同領域的實體鏈接之間存在不少差異,希望能快速構建特定領域的實體鏈接數據,減少人工標注成本。
發明內容
本說明書一個或多個實施例描述了一種實體鏈接語料標注方法和裝置,能快速構建特定領域的實體鏈接數據,減少人工標注成本。
第一方面,提供了一種實體鏈接語料標注方法,方法包括:
針對第一原始語料進行命名實體識別,得到預設類型的命名實體構成的命名實體集合;
對于所述命名實體集合中任意的目標命名實體,從標準庫中召回N個目標候選實體;
基于所述目標命名實體、所述第一原始語料中的所述目標命名實體的上下文、所述N個目標候選實體中的第一候選實體,確定所述目標命名實體與所述第一候選實體之間的匹配度分數;
按照匹配度分數由高到低的順序,確定所述N個目標候選實體的排序;
將標注輔助信息提供給標注人員作為標注的參考,所述標注輔助信息包括,所述命名實體集合以及其中每個命名實體對應的N個目標候選實體及其排序。
在一種可能的實施方式中,所述針對第一原始語料進行命名實體識別,包括:
將所述第一原始語料輸入預先訓練的命名實體識別模型,通過所述命名實體識別模型識別出多種類型的字符串;
從所述多種類型的字符串中篩選出預設類型的字符串,以得到所述命名實體集合。
在一種可能的實施方式中,所述針對第一原始語料進行命名實體識別,包括:
將所述第一原始語料輸入預先訓練的命名實體識別模型,通過所述命名實體識別模型識別出預設類型的字符串,以得到所述命名實體集合。
在一種可能的實施方式中,所述預設類型為公司類型,所述標準庫包括多個公司各自對應的標準實體。
在一種可能的實施方式中,所述確定所述目標命名實體與所述第一候選實體之間的匹配度分數,包括:
基于所述目標命名實體、所述上下文、所述第一候選實體,針對多個特征項進行特征提取,得到對應的多個特征值;
根據所述多個特征值,確定所述目標命名實體與所述第一候選實體之間的匹配度分數。
進一步地,所述多個特征項包括如下至少一種:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司;螞蟻區塊鏈科技(上海)有限公司,未經支付寶(杭州)信息技術有限公司;螞蟻區塊鏈科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111451201.X/2.html,轉載請聲明來源鉆瓜專利網。





