[發(fā)明專利]一種基于高置信度特征屬性分層聚類方法的論文同名作者消歧方法有效
| 申請?zhí)枺?/td> | 201710861485.7 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107590128B | 公開(公告)日: | 2021-08-17 |
| 發(fā)明(設(shè)計)人: | 胡婕 | 申請(專利權(quán))人: | 湖北大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430062 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 置信 特征 屬性 分層 方法 論文 同名 作者 | ||
1.一種基于高置信度特征屬性分層聚類方法的多國論文同名作者消歧方法,其特征在于,包括:
步驟1、先從學(xué)術(shù)搜索引擎中抽取出原始數(shù)據(jù),提取出特征屬性值,對其進行規(guī)范化處理,具體是:
(1)去除元數(shù)據(jù)中的非ASCII字符,即視覺表現(xiàn)像“亂碼”的字符;
(2)將論文數(shù)據(jù)中所有的特征值均轉(zhuǎn)化成小寫;
(3)去掉包含無意義值的論文記錄;
步驟2、針對步驟1得到的規(guī)范化處理后的原始數(shù)據(jù),根據(jù)定義的規(guī)則先形成別名組,然后根據(jù)別名組生成同形異義作者歧義組具體包括:
對于每一個同形異義的作者名,生成作者名的所有拼寫形式作為其別名并存儲;由于文化多樣性,各個語言體系的人名命名規(guī)則差異非常大;體現(xiàn)在東方國家和西方國家的命名規(guī)則上的一個明顯不同,是東方國家總是把姓放在名的前面而西方國家把姓放在最后;考慮到不同語言體系的特點,對于不同國家的作者名字采取不同的處理策略;包括東方國家的人名和西方國家的人名,西方國家的名字又包括一名一姓及一名兩姓;
構(gòu)建歧義組需要經(jīng)過兩個步驟:首先生成所有的別名形式字符串,構(gòu)成別名組;接下來,獲取關(guān)于作者ai的包含別名組字符串中的任意一個作者名形式的論文記錄,即為歧義組
原子簇的定義:
一個原子簇是一個歧義組的子集,其中所有的論文記錄被指派給同一個真實作者;其純度由公式(1)決定,它表示原子簇中屬于真實作者ai的論文記錄數(shù)Nactual占簇中論文記錄總數(shù)Ntotal的比例;
顯然,所有純度為100%原子簇構(gòu)成歧義組的準確率將會達到100%;這樣的原子簇有一些重要的性質(zhì):由于原子簇中的所有的論文可以保證屬于同一個作者,則其中出現(xiàn)過的每一個合作作者,均相互認識,即簇中所有合作作者可以作為整個簇中每篇文章的合作作者;文章的出版單位也可以收集起來作為整個簇共有的出版單位信息,用來與其他類簇進行相似度計算或者作為進一步聚類的依據(jù);
在此基礎(chǔ)上,對原子簇進行聚類,能夠最大程度提高準確率和聚類效率;
步驟3、分別對各個單特征屬性進行相似度計算和消歧方法的選取,具體包括:
3.1合作作者屬性相似度函數(shù)和消歧方法的選取;
合作作者相似度函數(shù)通過
co_sim(c1,c2)=|coauthor(c1)∩coauthor(c2)|計算一對論文之間共同的合作作者數(shù)量;然而考慮到合作作者傳遞性,同一個歧義組中有三篇論文記錄c0、c1、c2,c0.CoAuthor={a0,a1},c1.CoAuthor={a1,a2},c2.CoAuthor={a2,a3},這種現(xiàn)象表面看起來像論文記錄c1傳遞了共同的合作作者a1和a2,因此c0和c2也應(yīng)當屬于同一個作者,盡管它們之間沒有任何共同的合作作者;要在算法中體現(xiàn)傳遞性,可以借鑒原子簇的性質(zhì);
3.2出版單位屬性相似度函數(shù)和消歧方法的選取;
首先獲得所有論文的所有出版單位,通過相似度函數(shù)pub_sim(c1,c2)=|publish(c1)∩publish(c2)|計算出版單位之間的相關(guān)性,考慮出版單位之間的相關(guān)性,定義相似領(lǐng)域的出版單位的相似度,從而建立相似度表;將領(lǐng)域和方向相近的出版單位直接分組;將出版單位屬于同一分組的論文進行聚合;這種消歧方法在每次發(fā)現(xiàn)新的類簇時,獲取所有相關(guān)的組Gp中的所有出版單位放入其中;
3.3關(guān)鍵詞屬性相似度函數(shù)和消歧方法的選取;
關(guān)鍵詞相似度函數(shù)通過keyword_sim(c1,c2)=|keyword(c1)∩keyword(c2)|計算兩篇論文關(guān)鍵詞之間的相關(guān)性;采用啟發(fā)式規(guī)則層次聚類方法對同名作者消歧;
3.4標題與摘要屬性相似度函數(shù)和消歧方法的選取;
首先對標題和摘要進行分詞處理,進行去停用詞和高詞頻無用詞的預(yù)處理;通過TF-IDF模型找到標題或者摘要中TF-IDF值高的關(guān)鍵詞;通過對兩篇文章的高頻詞詞頻向量計算余弦相似度,進行聚類;
步驟4、根據(jù)上述得到的消歧結(jié)果得到各屬性置信度排名高低,采用啟發(fā)式規(guī)則先對合作作者和關(guān)鍵詞屬性進行第一步聚類,當且僅當兩者的相似度滿足條件時,合并類簇,對于沒有合作作者和關(guān)鍵詞缺省的論文,在該步驟結(jié)果后仍然是自己作為單獨的簇;然后選擇置信度次之的標題和出版單位屬性,同樣采用啟發(fā)式規(guī)則,對第一步得到的類簇進行第二步聚類,該步 可以合并第一步聚類后留下的孤立的單獨簇,由此得到最終的聚類結(jié)果;
所述步驟4具體包括以下子步驟:
步驟5.1、初始化原子簇集合L={l1,l2,…,ln},令歧義組G={c1,c2,…,cn}中每篇論文單獨為簇,其中l(wèi)i.Attrk=ci.Attrk;
步驟5.2、采用li.CoAuthor和li.Keywords對L進行聚類,得到新的原子簇集合L′={l′1,l′2,…,l′m},其中,對于每個原子簇l′i={li1,li2,…,lip},i≤m,
步驟5.3、采用l′i.Title和l′i.Publish對L′進行聚類,得到最終的聚類結(jié)果即為消歧結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北大學(xué),未經(jīng)湖北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710861485.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





