[發明專利]限定領域的實體鏈接方法和裝置在審
| 申請號: | 202010108590.5 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN113297386A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 侯磊;張馨如;史佳欣;李涓子;張鵬;唐杰 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 鄭朝然 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 限定 領域 實體 鏈接 方法 裝置 | ||
1.一種限定領域的實體鏈接方法,其特征在于,包括:
通過實體提及-知識庫實體字典,獲取待鏈接文本中的實體提及和候選實體集;
將獲取的所述實體提及和候選實體集的全局特征和局部特征輸入到實體消歧模型,獲得所述實體消歧模型輸出的所述候選實體集中的候選實體是所述實體提及指代的知識庫實體的概率;
根據所述候選實體集中的候選實體是所述實體提及指代的知識庫實體的概率,確定待鏈接文本的實體鏈接;
其中,所述實體提及-知識庫實體字典為,根據預先構建的領域數據集確定,所述領域數據集包括目標百科中現存的實體提及和對應的知識庫實體;
所述實體消歧模型使用多層感知機來整合不同的特征,使用圖卷積網絡在候選實體和其上下文實體之間傳遞信息,所述實體消歧模型為,以所述領域數據集中任一訓練語料的全局特征樣本數據和局部特征樣本數據為樣本,以所述任一訓練語料中的實體提及指代的知識庫實體的概率結果為樣本標簽訓練得到。
2.根據權利要求1所述的限定領域的實體鏈接方法,其特征在于,所述通過實體提及-知識庫實體字典,獲取待鏈接文本中的實體提及和候選實體集,包括:
通過所述實體提及-知識庫實體字典,構建用于字符串匹配的字典樹;
采取基于所述字典樹的字符串匹配算法得到文本中出現的所有實體提及,對于存在沖突的實體提及,選取最長的或者出現次數最多的實體提及作為匹配結果,同時得到所述候選實體集。
3.根據權利要求1所述的限定領域的實體鏈接方法,其特征在于,所述全局特征樣本數據和所述局部特征樣本數據為,通過對所述領域數據集中的訓練語料進行向量訓練時獲取;其中
所述對所述領域數據集中的訓練語料進行向量訓練包括:對所述訓練語料中任一實體和詞得到領域向量表示和開放域向量表示,在進行特征抽取的計算過程中,將所述領域向量和所述開放域向量連接作為實體和詞的向量表示。
4.根據權利要求1-3中任一項所述的限定領域的實體鏈接方法,其特征在于,預先構建所述領域數據集,包括:
將目標百科的各個實體所述的類別隨機排序,得到與所述實體對應的類別序列,所述各個實體各自對應的類別序列組成訓練語料;
通過預測上下文類別的方法得到任一類別序列的向量表示;
確定任一領域對應的領域類別集,所述領域類別集包括與所述領域對應的多個百科類別;
根據所述數據領域類別集中類別的實體與所述領域類別集,獲得所述領域數據集。
5.根據權利要求4所述的限定領域的實體鏈接方法,其特征在于,所述確定任一領域對應的領域類別集,所述領域類別集包括與所述領域對應的多個百科類別,包括:
確定任一領域對應的百科一級類別cd;
根據預設的最大遍歷層數,自頂向下從所述百科一級類別cd開始按層遍歷目標百科的分類體系;
將預設的前k層的類別加入到領域類別集;
在遍歷過程中,計算任一類別cj與已加入到領域類別集的類別的向量表示的均值計算任一類別cj與已加入到領域類別集的類別的相似度,并選擇相似度排序前預設值x%的加入到領域類別集Cd中。
6.根據權利要求1-3中任一項所述的限定領域的實體鏈接方法,其特征在于,所述全局特征用以表征對于一段文本鏈接到的所有實體的語義一致性,所述局部特征用于表征鏈接到的知識庫實體與局部上下文的語義一致性。
7.根據權利要求6所述的限定領域的實體鏈接方法,其特征在于,
所述全局特征包括實體圖特征以及任一實體與上下文實體提及的相似度特征;
所述局部特征包括字符串相似度和上下文相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010108590.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:樣本分析系統
- 下一篇:服務的處理方法、設備及存儲介質





