[發明專利]一種基于高置信度特征屬性分層聚類方法的論文同名作者消歧方法有效
| 申請號: | 201710861485.7 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107590128B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 胡婕 | 申請(專利權)人: | 湖北大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430062 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 置信 特征 屬性 分層 方法 論文 同名 作者 | ||
本發明涉及一種基于高置信度特征屬性分層聚類方法的論文同名作者消歧方法。主要步驟:(1)先從學術搜索引擎中抽取出原始數據,提取出特征屬性值,對其進行規范化處理;(2)根據規則,先形成別名組,然后根據別名組生成同形異義作者歧義組;(3)分別對各個單特征屬性進行相似度計算和消歧方法的選取;(4)通過由步驟3得出的各個屬性置信度評估,得出基于高置信度的特征屬性層次聚類方法。應用本發明,不僅保證了姓名消歧的速度,也提高了消歧的準確率。
技術領域
本發明涉及一種論文同名作者消歧方法,尤其是涉及一種基于高置信度特征屬性分層聚類方法的論文同名作者消歧方法。
背景技術
當今社會人們進行學術活動在很大程度上依賴于互聯網,其中很重要的原因是網絡擁有資源共享的優點。如今絕大多數學術論文均以電子資源的形式存于網絡數據庫中,人們僅需要通過一些正當網絡渠道,便可以方便查找、閱讀以及下載所需要的學習資源,尤其是學術論文。伴隨著人們學術研究習慣的改變,越來越多的學術搜索引擎(DLs)誕生并不斷發展,它們為用戶提供按作者檢索論文的服務,并集中返回作者名對應的所有論文信息列表,返回信息的準確性將直接影響人們學術活動的有效性。然而,同名歧義問題一直影響著搜索的質量。集中表現為,當研究人員在DLs中按某個作者名搜索其論文時,由于絕大多數系統采用的是字符串匹配的方式查找數據庫中對應的論文信息,因此,系統將返回所有跟用戶輸入的作者名拼寫相同的作者論文。這個時候,搜索引擎返回的數據并不能保證完整性和正確性,大多數時候返回信息的正確性需要研究人員自行判斷,或者需要研究人員對結果進行自行的篩選。目前,同名消歧問題越來越受到廣大研究學者的重視,一系列技術和方法應運而生,然而傳統的方法通常使用且僅使用包含在論文中的一些明顯的屬性信息,如合作作者名、出版信息、出版年份、工作地、關鍵詞、摘要等。但隨著網絡資源數據的激增,面對可能出現信息缺少、信息錯誤和深層次歧義問題上,這些傳統的方法也漸漸體現出一些限制和不足,如果同名作者歧義的問題不能很好解決,必將導致按作者名搜索時返回給用戶的論文數量龐大且雜亂無章,從而給研究人員造成困擾甚至誤導,降低學術活動的效率,嚴重時甚至影響學術研究所取得的最終結果。
發明內容
本發明的上述技術問題主要是通過下述技術方案得以解決的:
一種基于高置信度特征屬性分層聚類方法的論文同名作者消歧方法,其特征在于,包括:
步驟1、先從學術搜索引擎中抽取出原始數據,提取出特征屬性值,對其進行規范化處理;
步驟2、針對步驟1得到的規范化處理后的原始數據,根據定義的規則,先形成別名組,然后根據別名組生成同形異義作者歧義組
步驟3、分別對各個單特征屬性進行相似度計算和消歧方法的選取;
步驟4、通過由步驟3得出的各個屬性置信度評估,進行基于高置信度的特征屬性層次聚類。
在上述的一種基于高置信度特征屬性分層聚類方法的論文同名作者消歧方法,所述步驟1具體是從學術搜索引擎中隨機抽取出原始數據,提取其主要特征屬性值,其中包括合作作者、出版單位、關鍵詞以及標題和摘要,并規范化統一轉化成小寫,并剔除出那些亂碼字符和無意義數據記錄,具體需要滿足一下處理規則:
處理規則一、從學術搜索引擎中抽取缺乏規范性的原始數據;
處理規則二、去除原始數據中視覺表現像亂碼的非ASCII字符;
處理規則三、將論文數據中所有的特征值轉化成小寫;
處理規則四、去掉無意義值的論文記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北大學,未經湖北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710861485.7/2.html,轉載請聲明來源鉆瓜專利網。





