[發明專利]一種基于關鍵詞的主題網絡爬蟲設計方法有效
| 申請號: | 201710011216.1 | 申請日: | 2017-01-06 |
| 公開(公告)號: | CN106709052B | 公開(公告)日: | 2020-09-04 |
| 發明(設計)人: | 陳端兵;楊柳;傅彥;周俊臨 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 夏艷 |
| 地址: | 611731 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 主題 網絡 爬蟲 設計 方法 | ||
1.一種基于關鍵詞的主題網絡爬蟲設計方法,其特征在于,包括以下步驟:
(1)配置主題關鍵詞的搜索URL,形成初始種子超鏈接originalURL,其形式為“搜索引擎域名+主題關鍵詞+搜索結果起始頁”;
(2)根據originalURL,在搜索引擎中進行檢索并下載網頁,根據網頁內容獲取初步字段,所述初步字段包括:標題、概要、URL和下一頁超鏈接nextPageURL;其中,標題、概要和URL為抓取關鍵詞;
(3)根據主題相關性算法,利用所述標題和概要,進行主題相關性計算,得到每篇新聞與主題的相似性,將與主題相關的新聞字段保留下來放入公共隊列newsQueue中,過濾掉與主題不相關的新聞;所述與主題相關的新聞字段包括:URL、標題、概要;
(4)根據nextPageURL下載下一頁的網頁內容,抽取出步驟(2)所述的抓取關鍵詞以及nextPageURL,將與主題相關的抓取關鍵詞放入公共隊列newsQueue中,不斷重復步驟(4),直到沒有下一頁超鏈接為止;
(5)從newsQueue中取出URL交給爬蟲處理線程,即消費者線程;
所述主題相關性算法包括以下步驟:
(I)選取主題詞集,獲取訓練集
選定主題關鍵詞,在搜索引擎中搜索得到相應關鍵詞的Web文件和文本文件,作為word2vector的訓練集;
(II)利用word2vector工具將主題關鍵詞轉換為向量
用word2vector工具對上一步得到的訓練集進行訓練,訓練后,得到一個vectors.bin的二進制文件,利用該文件,將主題關鍵詞轉換為向量,得到向量集
其中表示主題詞j的向量,一共有n個主題詞,得到n個主題向量;
(III)選取m個待處理Web文檔的特征詞,并獲取其特征向量
采用分詞方法對文檔進行分詞,并計算每個詞的詞頻,在每個詞的詞頻上相應乘以一個權重,即可得到每個詞的最終權重w,最后,選取權重w排名前m位的詞作為特征詞,通過vectors.bin文件,將這m個特征詞轉換為向量,得到向量集其中表示特征詞i的向量;
(IV)計算向量集s和向量集d的相似性
將d中向量與s中每個向量求余相似性得到
其中,表示d中第i個向量的第k個維度上的數值,k從1取到向量的維數;同理表示s中第j個向量的第k維上的數值,k從1取到向量的維數;
取余弦相似性最大值即為該向量與主題詞的相似性,這樣計算完d中每個向量與s中每個向量的相似性以后得到一個m維向量,將每一維值相加,并進行歸一化后得到待處理文檔最終的主題相似性sim(s,d)
(VI)設定閾值,URL入庫
設定一個閾值K,如果sim(s,d)>K,則將URL標題、摘要存入URL庫,Web文本存入原始網頁庫,以便后期分析處理;
在步驟(1)之前,還包括以下步驟:
(1)配置領域本體的描述信息并作為主題爬蟲的模板,所述描述信息包括:主題關鍵詞、抓取關鍵詞;其中,主題關鍵詞是指根據主題確定的關鍵詞并且需要提交給搜索引擎進行資源檢索的關鍵詞;抓取關鍵詞是指最終要爬取的有效信息所對應的關鍵詞;
(2)確定主題關鍵詞集合;
步驟(2)確定主題關鍵詞集合的方法包括以下步驟:
(I)人工挑選主題關鍵詞,即在搜索引擎中檢索有關主題的內容,在內容中抽取與主題相關的關鍵詞,存儲在數據庫表中;
(II)把(I)中人工挑選出的關鍵詞作為搜索關鍵詞在搜索引擎中進行檢索,檢索出的內容存儲在文本文件中;
(III)對該文本文件進行分詞和采用TF-IDF算法進行詞頻排序后,取排名靠前的關鍵詞作為主題關鍵詞存儲數據庫中,所述TF-IDF算法具體如下:
對文本文件進行分詞,并計算每個詞的詞頻,在每個詞的詞頻上相應乘以一個權重,這個權重根據這個詞的標簽的重要性來定,如果這個詞出現在標題中,那么它的權重就設定高一點,如果這個詞出現在內容中,權重就低一點,計算每個詞的詞頻和權重的乘積得到每個詞的最終權重,根據最終權重值的大小,選擇權重高的前若干個關鍵詞作為主題關鍵詞即可,關鍵詞最終權重wf計算公式如下:
其中,i表示不同的標簽,wi表示不同標簽下關鍵詞的權重系數,fi表示關鍵詞在該文本文件中該標簽下出現的次數;
(IV)再重新把數據庫表中的關鍵詞作為搜索關鍵詞在搜索引擎中進行搜索,重復這樣的檢索和詞頻排序動作,以不斷地添加新的關鍵詞存入數據庫表中,最后數據庫表中的所有關鍵詞即為主題關鍵詞。
2.根據權利要求1所述的基于關鍵詞的主題網絡爬蟲設計方法,其特征在于,步驟(5)所述從newsQueue中取出URL交給爬蟲處理線程,即消費者線程,具體包括以下步驟:
下載URL對應網頁,解析出正文和步驟(2)中獲得的對應新聞的抓取關鍵詞形成新聞的完整信息保存到數據庫中,不斷重復,直到待抓取newsQueue隊列庫中沒有可以取出的URL為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710011216.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種比對信息展示的方法、設備及系統
- 下一篇:數據切片管理方法及系統





