[發明專利]用于抓取數據的方法和裝置有效
| 申請號: | 201810178540.7 | 申請日: | 2018-03-05 |
| 公開(公告)號: | CN110309403B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 許庶 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 抓取 數據 方法 裝置 | ||
1.一種用于抓取數據的方法,包括:
基于接收到的多條數據抓取任務信息建立任務索引列表集合和任務詳情列表集合,其中,多條數據抓取任務信息中的該數據抓取任務信息包括至少一個數據地址和抓取優先級,所述任務索引列表集合中的任務索引列表包括任務標識符和抓取狀態,抓取狀態表示數據抓取任務信息所對應的數據抓取任務當前所處的狀態,所述任務詳情列表集合中的任務詳情列表包括任務標識符、數據地址和抓取優先級,針對該數據抓取任務信息,所述任務詳情列表集合中的一個任務詳情列表與所述任務索引列表集合中的多個任務索引列表的任務標識符相同,所述抓取優先級用于表示對所述至少一個數據地址對應的待抓取數據進行抓取的優先等級;
接收預先設定的客戶端集合中的目標客戶端發送的數據地址獲取請求,其中,目標客戶端為所述客戶端集合中的、當前可用的客戶端;
基于所述任務索引列表集合和所述任務詳情列表集合生成數據地址列表,以及將所述數據地址列表發送給所述目標客戶端,以供所述目標客戶端根據所述數據地址列表抓取數據;
接收所述目標客戶端針對所述數據地址列表返回的抓取結果數據。
2.根據權利要求1所述的方法,其中,所述方法還包括:
響應于所述數據地址列表發送完成,更新所述任務索引列表集合中的目標任務索引列表和所述任務詳情列表集合中的目標任務詳情列表中的信息,其中,所述目標任務詳情列表為所述任務詳情列表集合中的、包括所述數據地址列表中的數據地址的任務詳情列表,所述目標任務索引列表為所述任務索引列表集合中的、與所述目標任務詳情列表的任務標識符相同的任務索引列表。
3.根據權利要求2所述的方法,其中,所述更新所述任務索引列表集合和所述任務詳情列表集合中的目標任務索引列表和目標任務詳情列表中的信息,包括:
將所述目標任務索引列表中的抓取狀態更新為“抓取中”,時間更新為接收所述數據抓取任務信息的時間;
將所述目標任務詳情列表中的時間更新為發送所述數據地址列表的時間,最后一次抓取時間更新為當前時間。
4.根據權利要求2所述的方法,其中,在接收所述目標客戶端針對所述數據地址列表返回的抓取結果數據之后,所述方法還包括:
響應于確定所述目標客戶端針對所述數據地址列表的數據抓取任務未超時,對所述目標任務索引列表和所述目標任務詳情列表進行如下更新:
將所述目標任務索引列表中的抓取狀態更新為“完成”;
根據所述目標客戶端返回的抓取結果數據更新所述目標任務詳情列表中的文件路徑和抓取結果,以及將所述目標任務詳情列表中的MAC地址更新為所述目標客戶端的MAC地址。
5.根據權利要求4所述的方法,其中,所述方法還包括:
響應于確定所述目標客戶端針對所述數據地址列表的數據抓取任務超時,丟棄所述目標客戶端針對所述數據地址列表返回的抓取結果數據,以及將所述目標任務索引列表中的抓取狀態更新為“待抓取”。
6.根據權利要求1所述的方法,其中,所述基于所述任務索引列表集合和所述任務詳情列表集合生成數據地址列表,包括:
選取所述任務索引列表集合中的、抓取狀態為“待抓取”和“超時”的任務索引列表組成第一任務索引列表集合;
選取所述任務詳情列表集合中的、與所述第一任務索引列表集合中的第一任務索引列表的任務標識符相同的任務詳情列表組成第一任務詳情列表集合;
基于所述第一任務詳情列表集合中的各第一任務詳情列表中的抓取優先級和數據地址生成數據地址列表,其中,所述數據地址列表中的各數據地址對應的第一任務詳情列表包括相同的任務標識符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810178540.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:檢測網站的方法和系統
- 下一篇:內容推薦方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





