[發明專利]作者關系在線挖掘方法及系統有效
| 申請號: | 201811155138.3 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN109388665B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 包鐵;劉露;葛亮;王上;彭濤;崔海 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/951;G06F16/955 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 丁曼曼;王寶筠 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 作者 關系 在線 挖掘 方法 系統 | ||
本發明提供了一種作者關系在線挖掘方法及系統,該作者關系在線挖掘方法根據爬行隊列中的URL獲取目標頁面并將所述目標頁面解析為文檔對象模型;根據內容分割策略將所述文檔對象模型劃分為多個內容塊;分別從每個所述內容塊中提取作者信息,并在完成爬取操作后根據提取到的作者信息,對內容塊進行增量層次化聚類,得到聚簇;對各個所述聚簇中的作者信息進行關聯規則挖掘,實現了在線從網頁中挖掘作者之間關系的目的。
技術領域
本發明屬于數據挖掘技術領域,尤其涉及一種作者關系在線挖掘方法及系統。
背景技術
通過查找學術團隊并挖掘學術團隊中作者之間的關系,有助于了解學術團隊的興趣以及該領域的研究動態,并且可以了解團隊中作者的關系強度,研究作者的興趣變化。
隨著網絡的發展,用戶經常訪問網絡以查找并獲取所需要的信息。但是,現有技術中并沒有提供在線查找學術團隊并挖掘學術團隊中作者之間的關系的方法,使得不能在學術文獻網絡環境下,在線挖掘出作者之間的關系。
發明內容
有鑒于此,本發明的目的在于提供一種作者關系在線挖掘方法及系統,以解決現有不能在線挖掘出作者關系的問題。
技術方案如下:
本發明提供一種作者關系在線挖掘方法,包括:
根據爬行隊列中的統一資源定位符URL獲取目標頁面;
將所述目標頁面解析為文檔對象模型;
根據內容分割策略將所述文檔對象模型劃分為多個內容塊;分別從每個所述內容塊中提取作者信息;
根據所述作者信息,對所述內容塊進行增量層次化聚類,得到聚簇;
對各個所述聚簇中的作者信息進行關聯規則挖掘,以確定作者之間的關系。
優選地,所述根據所述作者信息,對所述內容塊進行聚類,得到聚簇包括:
從所述作者信息中獲取特征;
基于公式:
其中,i≠j,計算兩個聚簇之間的相似度;其中,Ci表示第i個聚簇,Cj表示第j個聚簇,Sim(Ci,Cj)表示聚簇Ci和聚簇Cj之間的相似度;Fi為聚簇Ci的特征集合,Fj為聚簇Cj的特征集合;xik表示聚簇i中第k個特征權值,xjk表示聚簇j中第k個特征權值;m為特征數;初始狀態下,將每個內容塊作為一個聚簇;
其中,基于公式:
計算聚簇中的特征權值;xui表示聚簇u中第i個特征權值;fui為第i個特征在聚簇u中的頻率,N為頁面中內容塊的數量,ni為出現第i個特征的內容塊的數量;
基于公式:
確定是否將兩個聚簇合并為一個聚簇;其中,uk為聚簇Ci的內容塊,ug為聚簇Cj的內容塊;n為聚類Cj中內容塊的數量,M為聚類Cj中內容塊的數量,λ為預設參數;
若CV(Ci,Cj)取值為1,則將聚簇Ci和聚簇Cj合并為一個聚簇。
優選地,所述分別從每個所述內容塊中提取作者信息包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811155138.3/2.html,轉載請聲明來源鉆瓜專利網。





