[發明專利]基于知識圖譜的科研實體鏈接方法及裝置有效
| 申請號: | 202010074094.2 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN111259166B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 唐杰;邵洲;劉德兵 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/903;G06F16/2458 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王艷斌 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 科研 實體 鏈接 方法 裝置 | ||
本發明公開了一種基于知識圖譜的科研實體鏈接方法及裝置,其中,該方法包括:獲取隸屬信息集合,對隸屬信息集合中的每一個科研成果中學者的隸屬進行預處理生成字符串;將字符串進行分割,生成詞集合,對詞集合中每個詞通過知識圖譜的模糊查詢進行匹配,找到每個詞可能表達的實體集合,將實體集合作為候選集加入候選集合中;通過候選集實體選擇模型在候選集合中選取每一個科研成果中學者的隸屬對應的最終結果;將最終結果構造為與隸屬信息集合一一對應的知識圖譜實體集合,對知識圖譜實體集合進行輸出。該方法利用多重分割的字符串相似性擴充科研實體的候選集,并通過一個相似度模型來匹配最可能的實體。
技術領域
本發明涉及信息檢索技術領域,特別涉及一種基于知識圖譜的科研實體鏈接方法及裝置。
背景技術
科研成果中學者的隸屬(即affiliation)展現了科研機構參與該科研創新的情況。但是該表示方式存在著歧義性和模糊性,如果將科研成果中的學者的隸屬映射到現實社會中的科研實體上,則能夠很好的避免其帶來的歧義性和模糊性。
科研成果中科研實體是以學者的隸屬所存在的,即現實世界中所指的科研機構。由于一系列的原因導致該表達存在著較大的歧義性和模糊性。主要的影響因素有:英文名翻譯方法的不同、機構合并與更名、拼寫錯誤、頂級機構與下級本門難以區分、不同的書寫方式、印刷錯誤或OCR錯誤、機構簡寫、翻譯錯誤、信息的遺漏、機構同名等。單從語義、語法等角度很難消除其歧義性和模糊性。
該問題很早就引起了大家的重視,主要采用基于規則的方法和基于知識的方法來實現。基于規則的方法中,代表性的工作有:Jonnalagadda等人提出的基于多字典的多層規則匹配、Jiang等人提出的一種基于標準化壓縮距離的聚類方法、Huang等人提出了一種基于規則的算法等。基于知識的方法中,代表性的工作有:Aumueller等人提出基于網絡搜索結果url的從屬關系的相似性判斷方法、Morillo等人提出了一種新的半自動方法編碼方法、等人使用Nooj進行機構標準化的方法等。傳統基于規則或者基于知識的方法,很容易受限于預定義好的知識和框架,在數據量不斷增長、時間跨度很長、數據量較大等真實環境下效果較差。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的一個目的在于提出一種基于知識圖譜的科研實體鏈接方法,該方法利用多重分割的字符串相似性擴充科研實體的候選集,并通過一個相似度模型來匹配最可能的實體。
本發明的另一個目的在于提出一種基于知識圖譜的科研實體鏈接裝置。
為達到上述目的,本發明一方面實施例提出了一種基于知識圖譜的科研實體鏈接方法,包括:
S1,獲取隸屬信息集合,對所述隸屬信息集合中的每一個科研成果中學者的隸屬進行預處理生成字符串;
S2,將所述字符串進行分割,生成詞集合,對所述詞集合中每個詞通過知識圖譜的模糊查詢進行匹配,找到每個詞可能表達的實體集合,將所述實體集合作為候選集加入候選集合中;
S3,通過候選集實體選擇模型在所述候選集合中選取每一個科研成果中學者的隸屬對應的最終結果;
S4,將所述最終結果構造為與所述隸屬信息集合一一對應的知識圖譜實體集合,對知識圖譜實體集合進行輸出。
本發明實施例的基于知識圖譜的科研實體鏈接方法,通過利用多重分割的字符串相似性擴充科研實體的候選集,并通過一個相似度模型來匹配最可能的實體,可以應用到多種應用中,例如構建基于科研實體的知識圖譜、科研實體合作網絡、學者跨機構流動、科研成果管理等。
另外,根據本發明上述實施例的基于知識圖譜的科研實體鏈接方法還可以具有以下附加的技術特征:
進一步地,在本發明的一個實施例中,所述S1進一步包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010074094.2/2.html,轉載請聲明來源鉆瓜專利網。





