[發明專利]一種聚焦爬蟲的設計方法有效
| 申請號: | 201210484746.5 | 申請日: | 2012-11-26 |
| 公開(公告)號: | CN102930059A | 公開(公告)日: | 2013-02-13 |
| 發明(設計)人: | 陳端兵;高輝;傅彥;張博 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聚焦 爬蟲 設計 方法 | ||
1.一種聚焦爬蟲的設計方法,其特征在于,包括以下步驟:
(1)、配置領域本體的描述信息并作為聚焦爬蟲的模板,這些描述信息包括:搜索關鍵詞、篩選關鍵詞、爬取關鍵詞;其中,搜索關鍵詞是指提交給搜索引擎進行資源檢索的關鍵詞,篩選關鍵詞是指根據搜索引擎的反饋結果進行爬取的資源中包含的需要進行進一步篩選的超鏈接(URL)所對應的關鍵詞,爬取關鍵詞是指最終要爬取的有效信息所對應的關鍵詞;
(2)、選擇爬蟲模板的搜索關鍵詞提交給搜索引擎進行資源檢索,獲取本領域網頁URL信息,形成初始種子URL序列N;
(3)、從初始種子URL序列N中依次取出種子URL交給的爬蟲處理線程:
3.1)、在爬蟲處理線程進行分析處理種子URL時,根據取出的種子URL在初始種子URL序列N之前種子URL的有效性即是否提取到有用信息,以一定的爬取概率P選取種子URL進行資源爬取,實現對種子URL的有效過濾,提高URL的處理效率;
3.2)、依據爬蟲模板的篩選關鍵詞,對步驟3.1)選取的種子URL進行深度遍歷搜索,并獲取包含篩選關鍵詞的URL超鏈接隊列;
3.3)、依據爬蟲模板的爬取關鍵詞對步驟3.2)獲取的URL超鏈接隊列中的URL依次進行頁面源碼分析,對頁面中的標簽進行權重分析,定位出有用信息在頁面源碼中的位置,提取出有用的信息,并存入數據庫中。
2.根據權利要求1所述的聚焦爬蟲的設計方法,其特征在于,所述爬取概率P為:
P=1-(s+f)/(2n)
其中,n是初始種子URL序列N包含初始種子URL的數目,s為取出的種子URL在初始種子URL序列N中的位置序列號,f為取出的種子URL在初始種子URL序列N之前的種子URL中未提取到有用信息的種子URL的數目。
3.根據權利要求1所述的聚焦爬蟲的設計方法,其特征在于,還包括以下步驟:
在間隔一段時間后,重新選擇爬蟲模板的搜索關鍵詞提交給搜索引擎進行資源檢索,獲得新的初始種子URL序列N,然后,重新進行步驟3.1)、步驟3.2),得到新的URL超鏈接隊列,然后與上一時間窗口獲得的URL超鏈接隊列進行比較,對于新的URL,則按照步驟3.3)提取出有用的信息,并存入數據庫中;對于已有的URL,則獲取對應頁面的信息并求其MD5值,并與上次時間窗口爬取的頁面信息生成的MD5值進行比較,若不同,則進行步驟3.3)重新爬取,并將新爬取到的信息存入數據庫中;對于沒有的URL,則將數據庫中對應的信息刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210484746.5/1.html,轉載請聲明來源鉆瓜專利網。





