[發明專利]一種基于實測帶寬的多智能體互聯網數據采集任務分配方法有效
| 申請號: | 201710052671.6 | 申請日: | 2017-01-24 |
| 公開(公告)號: | CN106886459B | 公開(公告)日: | 2019-07-23 |
| 發明(設計)人: | 沈頌 | 申請(專利權)人: | 浙江工商大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/48;G06F16/951 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜;邱啟旺 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實測 帶寬 智能 互聯網 數據 采集 任務 分配 方法 | ||
本發明公開了一種基于實測帶寬的多智能體互聯網數據采集任務分配方法,假定在環境中存在L個目標任務T1,T2,…,TL和K個智能體節點A1,A2,…,AK,若K>L,則執行單任務分配算法,否則執行多任務分配算法。在多任務分配時,傳統的分布式爬蟲系統一般采用隨機任務調度的機制,這種機制的問題在于沒有考慮多個采集節點能力的差異因素,從而影響了分布式爬蟲系統的數據采集性能。本發明針對上述不足,提供一種基于實測帶寬,合理分配分布式網絡爬蟲數據采集任務的方法,優先為采集能力匹配度高的節點分配采集任務,從而使得分布式數據采集系統獲得較高的采集性能,提高了互聯網信息的爬取效率。
技術領域
本發明涉及數據采集領域,尤其涉及一種基于實測帶寬的多智能體互聯網數據采集任務分配方法。
背景技術
為滿足海量數據爬取的需求,現代爬蟲系統一般采用大規模分布式架構。在這種架構中,如何高效配置多個數據采集節點的資源成為提升爬蟲系統性能的關鍵問題。傳統的分布式爬蟲系統一般采用隨機任務調度的機制或類似機制。這種機制的問題在于沒有考慮爬取目標的地理位置差異,以及多個采集節點在采集、存儲方面的帶寬差異因素,更沒有運用相應的帶寬測試方法,因此無法做到資源的最優配置,從而影響了分布式爬蟲系統的數據采集性能。
發明內容
本發明為克服上述不足之處,設計了一種基于實測帶寬的任務分配方法,該方法用于將多個采集任務分配給多個采集節點,根據每個采集節點的狀態信息、實測帶寬情況以及待分配任務的信息,經過算法處理后得出任務分配結果。
本發明的目的是通過以下技術方案來實現的:一種基于實測帶寬的多智能體互聯網數據采集任務分配方法,具體為:假定在環境中存在L個目標任務T1,T2,…,TL和K個智能體節點A1,A2,…,AK,若K>L,則執行單任務分配算法;否則執行多任務分配算法;
所述的單任務分配算法步驟如下:
(1)針對每個智能體節點Ai與任務Tj,計算區域判決指標cij=(任務數+1)/(BC+BS),找出區域判決指標計算結果最小的節點。
BC表示任務的目標區域與智能體所在區域的匹配度,計算方法如下:由智能體在建立種子信息表時先行從該種子頁面爬取根頁面三次,通過(爬取位數)/(爬取所消耗的時間)獲取爬行帶寬,存入種子庫中相應BC字段。
BS表示存儲區域與智能體所在區域的匹配度,計算方法如下:由智能體在建立種子信息表時先行將一個標準100KB文件存入存儲區域三次,通過(存取位數)/(存取所消耗的時間)獲取存儲帶寬,存入種子庫中相應BS字段。
(2)將待分配的任務分配給步驟(1)計算得到的節點。
所述的多任務分配算法步驟如下:
(1)在所有任務中每次分配K項,直到剩余任務數小于K。剩余任務可以在任務數增加后再行分配,也可以以單任務方式分配;
(2)已知智能體Ai(i=1,2,…,K)完成目標任務Tj(j=1,2,…,K)的代價矩陣為C=(cij)(i,j=1,2,…,K),其中cij的計算方法與單任務時相同;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工商大學,未經浙江工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710052671.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應用程序智能控制方法及裝置
- 下一篇:負載均衡方法和裝置





