[發明專利]一種融合學術影響力的學者人名消除歧義的方法有效
| 申請號: | 201810067134.3 | 申請日: | 2018-01-24 |
| 公開(公告)號: | CN108304380B | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 鄧輝舫;李超然 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 學術 影響力 學者 人名 消除 歧義 方法 | ||
1.一種融合學術影響力的學者人名消除歧義的方法,其特征在于:該方法是以實現將待消歧人名與學者實體準確對應為目標,通過融合學者影響力,改進相似度計算模型,提出增強的影響力計算模型,而后通過改進網絡結構、模型聚類函數和模型組合,以達到更高的消歧準確率;其包括以下步驟:
步驟S1、將學者數據集合U按名字分組得到n個名字組A,根據文獻將每個名字組劃分為m個學者實體節點a;
數據集合U中包含待消歧的各個同名學者名字組A,U={A1,A2,...,An},其中Ai為U中第i個名字組,包含Ai所對應學者人名的所著文獻屬性及其合著者信息;對于所得到的每個名字組,以文獻來區分學者實體,將組中每個文獻中的待消歧學者名字作為一個學者實體;假設名字組Ai中有m篇文獻,則將該名字組劃分為m個學者實體aij,即Ai={ai1,ai2,...,aim},其中0<i≤n,0<j≤m;
步驟S2、根據步驟S1劃分結果,對每個組A,分別在組內學者實體節點與U中名字組節點間通過合作關系建立合作關系網絡G;
步驟S3、對于每個組A,結合節點相似度和自身重要性,在合作關系網絡G上計算A中各個學者實體節點a基于特征集F的學術影響力
步驟S4、使用網絡嵌入匿名圖方法,結合步驟S3所得節點的學術影響力,得到文獻矩陣D,根據D計算得到名字組內學者實體節點a帶學術影響力約束的相似度Sa;
步驟S5、利用步驟S4所得相似度,重復步驟S1~S3重新計算學術影響力,得到學者實體節點a基于學術影響力相似度的新的學術影響力其中S表示該節點帶學術影響力約束的相似度;
步驟S6、根據節點學術影響力的差異和相似度得到聚類函數C,使用凝聚層次聚類算法得到消歧結果。
2.根據權利要求1所述的一種融合學術影響力的學者人名消除歧義的方法,其特征在于:在步驟S2中,將步驟S1中所得每一個名字組A中的學者實體節點a,與A在數據集合U上的補集CUA中的各個名字組節點間建立合作關系網絡G=(A∪CUA,E),其中,E為網絡中邊的集合,表示節點間的合作關系,各實體節點與名字組節點分別通過合著關系和引用關系構成邊,合著關系為雙向邊,引用關系為單向邊。
3.根據權利要求1所述的一種融合學術影響力的學者人名消除歧義的方法,其特征在于:在步驟S3中,根據步驟S2所得的合作關系網絡,在包含學者和文獻特征的數據集上采用細粒度特征的學術影響力評估算法,結合自身重要性和影響概率構建基于特征集F的學術影響力;F為從待消歧數據集合U中選取的特征集F={f1,f2,...,fn},其中,fn表示F中第n個特征;為A定義一組特征強度向量其中:
a、節點的自身重要性Iout為節點基于角色的重要性,以特征強度來度量,其關系表示為其中n為特征數量,fi表示在第i個特征上的強度;
b、節點間的影響概率由直接影響即節點相似度和間接影響即公共邊數量構成;其關系為其中q為直接影響在影響概率中所占比例;結合節點的自身重要性Iout,及其鄰居節點的影響概率節點的初始學術影響力II表示如下:
其中p為自身重要性在初始學術影響力中所占的比例,N表示計算節點對象的鄰居節點集合,節點a和A的鄰居節點集合分別表示為Na和NA;
假設節點以一定概率相互傳播;節點間的學術影響力貢獻IF表示如下:
其中為運算目標節點的鄰居節點的學術影響力,為節點間的傳播概率,節點a對A的傳播概率表示為A對a的傳播概率表示為初始時,IF=II;
迭代計算節點的學術影響力,得到實體節點a較理想的學術影響力,表示為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810067134.3/1.html,轉載請聲明來源鉆瓜專利網。





