[發明專利]一種融合學術影響力的學者人名消除歧義的方法有效
| 申請號: | 201810067134.3 | 申請日: | 2018-01-24 |
| 公開(公告)號: | CN108304380B | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 鄧輝舫;李超然 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 學術 影響力 學者 人名 消除 歧義 方法 | ||
本發明公開了一種融合學術影響力的學者人名消除歧義的方法,該方法是將消歧數據子集和源數據集依據其合著及引用關系構建社交網絡,根據網絡關系計算消歧數據子集中各個節點的影響力;在消歧數據子集內部根據節點關系分別構建學者與學者,學者與文獻,文獻與文獻,三個網絡關系,使用基于排序的損失函數,并結合節點影響力相似度在多個網絡中聯合學習學者節點間的相似度;基于節點相似度和節點影響力構造聚類函數,從而實現較好的消歧效果。本發明在保護個人隱私的同時克服學術數據中的信息缺失問題,充分利用社交網絡特征,融合節點影響力與節點相似度,有效提升學者人名消歧效果。
技術領域
本發明涉及實體消歧的技術領域,尤其是指一種融合學術影響力的學者人名消除歧義的方法。
背景技術
如今絕大多數學術資料均以電子資源形式存儲于網絡數據庫中,科研活動越來越依賴于文獻系統,通過文獻系統可以獲取學者信息和研究文獻。學者人名歧義包括:(1)相同學者名在不同文獻中記錄形式不同;(2)不同學者在文獻中名字相同。由于可能存在大量同名學者,且在科技文獻中存在簡寫形式,維護這些數據的文獻服務器可能會將多個學者的文獻錯誤聚合,其信息的準確性將直接影響人們學術活動的有效性,因此文獻資源面臨著嚴峻的學者人名消歧問題。高效準確的學者名稱消歧有助于正確組織文獻及學者信息,方便用戶獲取所需資源,在實際應用中有重要意義。
學者人名消歧屬于實體消歧領域的一個分支,現有工作包含基于監督學習的消歧方法和無監督式的消歧方法,目標是建立文獻與現實中實體的對應關系。基于監督學習的方法是指,根據人工標注的數據,主要包括學者名字、文獻標題、出版地點、研究領域、電子郵件等屬性信息,生成分類模型,用其判斷相同學者名字是否屬于同一個學者實體。但數字文獻信息繁多且存在信息缺失、信息錯誤的問題,需要大量數據標注和清洗,成本較高。無監督名稱消歧方法是將記錄劃分為幾個群組,使得每個群組包含來自唯一實體的記錄。其方法是利用屬性計算記錄間的相似度,根據相似度進行聚類。但由于屬性相似度約束往往較弱,且難以客觀判定區分實體的相似度閾值,消歧準確率往往較低。另一方面,學者數據挖掘涉及學者個人隱私,如何在保護學者隱私的前提下進行人名消歧也是這一領域的一個重要問題。
學者的學術影響力是衡量科研主體的工作質量和重要性的重要指標,現有的學者影響力評估方法大多基于學者相關文獻的引用次數,通過學者間合著關系及文獻間引用關系構成網絡進行學術影響力評估。常用的方式是采用搜索引擎中PageRank方法,對文獻及學者重要性進行排序,同時考慮節點間相似度對學術影響力傳播的影響進行學術影響力評估。學者的學術影響力是學者之間很有區分度的一個特征,然而現有的學者人名消歧方法多是從學者單個節點角度出發,根據單個節點的特征,而沒有從網絡全局出發考慮學者的學術影響力。
發明內容
本發明的目的在于克服現有技術的不足,提出了一種融合學術影響力的學者人名消除歧義的方法,在保護個人隱私的同時克服學術數據中的信息缺失問題,充分利用社交網絡特征,融合節點學術影響力與節點相似度,有效提升學者人名消歧效果。
為實現上述目的,本發明所提供的技術方案為:一種融合學術影響力的學者人名消除歧義的方法,該方法是以實現將待消歧人名與學者實體準確對應為目標,通過融合學者學術影響力,改進相似度計算模型,提出增強的學術影響力計算模型,而后通過改進網絡結構、模型聚類函數和模型組合,以達到更高的消歧準確率;其包括以下步驟:
步驟S1、將學者數據集合U按名字分組得到n個名字組A,根據文獻將每個名字組劃分為m個學者實體節點a;
步驟S2、根據步驟S1劃分結果,對每個組A,分別在組內學者實體節點與U中名字組節點間通過合作關系建立合作關系網絡G;
步驟S3、對于每個組A,結合節點相似度和自身重要性,在合作網絡G上計算A中各個學者實體節點a基于特征集F的學術影響力
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810067134.3/2.html,轉載請聲明來源鉆瓜專利網。





