[發明專利]云環境下分布式網絡信息采集方法有效
| 申請號: | 201510020854.0 | 申請日: | 2015-01-15 |
| 公開(公告)號: | CN104699757B | 公開(公告)日: | 2018-03-13 |
| 發明(設計)人: | 張登銀;于建坤 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇愛信律師事務所32241 | 代理人: | 唐小紅 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 環境 分布式 網絡 信息 采集 方法 | ||
1.一種云環境下分布式網絡信息采集方法,其特征在于,包含以下步驟:
1)模型的組成:頁面信息采集子系統、頁面信息數據處理子系統;
2)頁面信息采集系統創建服務監聽端口,接收中心節點分配的URL集合,當接收到中心節點分配的URL集合后,觸發步驟3);
3)頁面信息采集系統采用異步的方式,對URL集合中的每個頁面進行抓取,抓取完成后,將包含所有頁面信息的結果返回給中心節點;
4)中心節點將接收到的抓取的結果放到待處理頁面集合中,交由云計算平臺對頁面信息進行處理,并且將頁面信息采集服務器加入空閑的服務器列表;
5)云計算平臺提取出頁面中所有的超鏈接,并且對超鏈接進行過濾,將過濾出來的URL放入到待分配的URL集合中;
6)中心節點根據未分配的服務器列表,根據URL分配的策略,將待分配的URL分配給各個頁面信息采集服務器,重復步驟2),直到待分配URL列表為空;
所述步驟1)中,
系統的模型由1個云計算中心以及n個邊緣節點組成,在節點的功能上,邊緣節點運行頁面信息采集子系統,專門負責頁面信息的采集,云計算中心負責數據的處理、URL集合的分配,在節點的連接方式上,呈現出星型的物理結構;
所述步驟6),中心節點按照不同的邊緣節點的頁面抓取效率,在一個基數k的基礎上,按照下述公式,為不同的邊緣節點分配不同的URL個數:
其中:count表示邊緣節點的數量,ti表示第i個邊緣節點抓取所耗費的平均時間,n(0)=k。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510020854.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種最小函數依賴的增量計算方法
- 下一篇:一種物聯網終端設備的語義化方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





