[發(fā)明專利]云環(huán)境下分布式網(wǎng)絡(luò)信息采集方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510020854.0 | 申請(qǐng)日: | 2015-01-15 |
| 公開(公告)號(hào): | CN104699757B | 公開(公告)日: | 2018-03-13 |
| 發(fā)明(設(shè)計(jì))人: | 張登銀;于建坤 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 江蘇愛信律師事務(wù)所32241 | 代理人: | 唐小紅 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 環(huán)境 分布式 網(wǎng)絡(luò) 信息 采集 方法 | ||
1.一種云環(huán)境下分布式網(wǎng)絡(luò)信息采集方法,其特征在于,包含以下步驟:
1)模型的組成:頁面信息采集子系統(tǒng)、頁面信息數(shù)據(jù)處理子系統(tǒng);
2)頁面信息采集系統(tǒng)創(chuàng)建服務(wù)監(jiān)聽端口,接收中心節(jié)點(diǎn)分配的URL集合,當(dāng)接收到中心節(jié)點(diǎn)分配的URL集合后,觸發(fā)步驟3);
3)頁面信息采集系統(tǒng)采用異步的方式,對(duì)URL集合中的每個(gè)頁面進(jìn)行抓取,抓取完成后,將包含所有頁面信息的結(jié)果返回給中心節(jié)點(diǎn);
4)中心節(jié)點(diǎn)將接收到的抓取的結(jié)果放到待處理頁面集合中,交由云計(jì)算平臺(tái)對(duì)頁面信息進(jìn)行處理,并且將頁面信息采集服務(wù)器加入空閑的服務(wù)器列表;
5)云計(jì)算平臺(tái)提取出頁面中所有的超鏈接,并且對(duì)超鏈接進(jìn)行過濾,將過濾出來的URL放入到待分配的URL集合中;
6)中心節(jié)點(diǎn)根據(jù)未分配的服務(wù)器列表,根據(jù)URL分配的策略,將待分配的URL分配給各個(gè)頁面信息采集服務(wù)器,重復(fù)步驟2),直到待分配URL列表為空;
所述步驟1)中,
系統(tǒng)的模型由1個(gè)云計(jì)算中心以及n個(gè)邊緣節(jié)點(diǎn)組成,在節(jié)點(diǎn)的功能上,邊緣節(jié)點(diǎn)運(yùn)行頁面信息采集子系統(tǒng),專門負(fù)責(zé)頁面信息的采集,云計(jì)算中心負(fù)責(zé)數(shù)據(jù)的處理、URL集合的分配,在節(jié)點(diǎn)的連接方式上,呈現(xiàn)出星型的物理結(jié)構(gòu);
所述步驟6),中心節(jié)點(diǎn)按照不同的邊緣節(jié)點(diǎn)的頁面抓取效率,在一個(gè)基數(shù)k的基礎(chǔ)上,按照下述公式,為不同的邊緣節(jié)點(diǎn)分配不同的URL個(gè)數(shù):
其中:count表示邊緣節(jié)點(diǎn)的數(shù)量,ti表示第i個(gè)邊緣節(jié)點(diǎn)抓取所耗費(fèi)的平均時(shí)間,n(0)=k。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510020854.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





