[發明專利]一種BitTorrent種子文件爬取方法無效
| 申請號: | 201010147527.9 | 申請日: | 2010-04-13 |
| 公開(公告)號: | CN101826110A | 公開(公告)日: | 2010-09-08 |
| 發明(設計)人: | 宋維佳;馬皓;張建宇;張緣;楊加;張蓓;周淵 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 馮藝東 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 bittorrent 種子 文件 方法 | ||
1.一種BitTorrent種子文件爬取方法,其步驟為:
1)根據設定的BT服務器特征關鍵詞,探測模塊調用搜索引擎接口查找BT發布WEB站 點并將其發布頁面地址發送到爬蟲模塊;
2)爬蟲模塊根據接收到的發布頁面地址下載相應頁面;
3)爬蟲模塊從所下載頁面中解析出種子文件地址,并根據種子文件地址將種子文件下載 到種子文件庫;
4)種子文件解析器從種子文件中解析出索引服務器的地址,并把索引服務器地址轉換成 發布頁面地址發送給爬蟲模塊,重復步驟2)~4)。
2.如權利要求1所述的方法,其特征在于所述探測模塊定期地調用搜索引擎接口查找BT發 布WEB站點。
3.如權利要求1所述的方法,其特征在于所述探測模塊提供一關鍵詞輸入接口,用于接收新 設定的BT服務器特征關鍵詞。
4.如權利要求1所述的方法,其特征在于所述爬蟲模塊包括一新發布頁面地址隊列,用于緩 存沒有爬取過的發布頁面地址;一舊發布頁面地址隊列,用于緩存已經爬取過的發布頁面 地址;一種子文件地址集合,用于存放已經下載過的種子文件的鏈接地址。
5.如權利要求4所述的方法,其特征在于所述爬蟲模塊根據接收到的發布頁面地址下載相應 頁面的方法為:爬蟲模塊對于接收到的發布頁面地址,首先檢查所述新發布頁面地址隊列 或所述舊發布頁面地址隊列中是否有此地址,如果有則丟棄該地址,否則將其存入所述新 發布頁面地址隊列的隊尾;然后爬蟲模塊從所述新發布頁面地址隊列的隊首提取一地址, 將其放入所述舊發布頁面地址隊列后下載所提取地址的頁面。
6.如權利要求5所述的方法,其特征在于所述爬蟲模塊從所下載頁面中解析出其他網頁的發 布頁面地址,然后檢查所述新發布頁面地址隊列或所述舊發布頁面地址隊列中是否有此地 址,如果有則丟棄該地址,否則將其存入所述新發布頁面地址隊列的隊尾。
7.如權利要求4所述的方法,其特征在于所述爬蟲模塊根據種子文件地址將種子文件下載到 種子文件庫的方法為:對于接收到的種子文件地址,爬蟲模塊首先檢查所述種子文件地址 集合中是否存在該種子文件地址,如果存在則拒絕鏈接下載,否則鏈接此地址并下載此種 子文件。
8.如權利要求4所述的方法,其特征在于所述新發布頁面地址隊列和所述舊發布頁面地址隊 列中緩存的地址為發布頁面地址的哈希值;所述發布頁面地址的哈希值上標記有上次處理 時間,所述爬蟲模塊刪除標記時間超過設定時間的發布頁面地址哈希值;所述種子文件地 址集合中存儲的地址為種子文件地址的哈希值;所述種子文件地址的哈希值上標記有上次 處理時間,所述爬蟲模塊刪除標記時間超過設定時間的種子文件地址哈希值。
9.如權利要求1所述的方法,其特征在于所述種子文件庫是數據庫或者文件系統;所述探測 模塊、爬蟲模塊、種子文件解析器、種子文件庫運行于不同主機,主機之間通過網絡連接; 或者所述探測模塊、爬蟲模塊、種子文件解析器、種子文件庫運行于同一主機上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010147527.9/1.html,轉載請聲明來源鉆瓜專利網。





