[發(fā)明專利]自適應(yīng)網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建及網(wǎng)絡(luò)資源收集方法在審
| 申請?zhí)枺?/td> | 201410155856.6 | 申請日: | 2014-04-18 |
| 公開(公告)號(hào): | CN103902732A | 公開(公告)日: | 2014-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 鄒艷珍;張靈簫 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 王海洋 |
| 地址: | 100080*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自適應(yīng) 網(wǎng)絡(luò)資源 收集 系統(tǒng) 構(gòu)建 方法 | ||
1.一種自適應(yīng)的網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建方法,其特征在于,包括:
配置一個(gè)統(tǒng)一的網(wǎng)絡(luò)資源收集模塊,所述網(wǎng)絡(luò)資源收集模塊包括一個(gè)統(tǒng)一的爬蟲分配裝置以及與若干等待調(diào)用的爬蟲執(zhí)行單元,該爬蟲分配裝置包括:
初始單元:為網(wǎng)絡(luò)資源收集準(zhǔn)備必要的存儲(chǔ)空間及系統(tǒng)開銷;
收集單元:具有統(tǒng)一爬蟲程序接口,能根據(jù)目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)類型選擇不同爬蟲程序收集目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù);
關(guān)閉單元:在收集裝置收集到所需要的目標(biāo)數(shù)據(jù)后釋放系統(tǒng)開銷以及在收集裝置出現(xiàn)異常時(shí)進(jìn)行異常處理;
配置一個(gè)爬蟲依賴模塊,該模塊用于配置網(wǎng)絡(luò)資源收集模塊與目標(biāo)網(wǎng)絡(luò)資源之間的依賴關(guān)系;網(wǎng)絡(luò)資源收集模塊能夠通過爬蟲依賴模塊建立的依賴關(guān)系通過爬蟲分配裝置配置相應(yīng)爬蟲執(zhí)行單元執(zhí)行資源收集。
2.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,其特征在于,初始單元用于爬蟲程序在信息抓取之前進(jìn)行的預(yù)處理過程,包括以下子步驟:
步驟2.1,取得空閑子線程;
步驟2.2,建立用于存儲(chǔ)開源項(xiàng)目的文件系統(tǒng);
步驟2.3,創(chuàng)建抓取資源的任務(wù)記錄。
3.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,其特征在于,收集單元用于對目標(biāo)網(wǎng)絡(luò)資源的抓取,包括以下子步驟:
步驟3.1,根據(jù)爬蟲依賴模塊中的依賴關(guān)系找到相應(yīng)的爬蟲執(zhí)行單元,在步驟2.1取得的子線程中建立一個(gè)該爬蟲執(zhí)行單元的實(shí)例;
步驟3.2,調(diào)用統(tǒng)一爬蟲程序接口進(jìn)行數(shù)據(jù)抓取。
4.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,其特征在于,關(guān)閉單元在抓取完成后釋放系統(tǒng)開銷,包括以下子步驟:
步驟4.1,在步驟2.3創(chuàng)建的任務(wù)記錄中記錄任務(wù)結(jié)束信息;
步驟4.2,釋放該任務(wù)占用的子線程。
5.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,其特征在于,關(guān)閉單元在在抓取出錯(cuò)后能進(jìn)行異常處理,包括以下子步驟:
步驟5.1:關(guān)閉單元定期讀取步驟2.3中創(chuàng)建的任務(wù)記錄,將所述任務(wù)記錄中未記載結(jié)束信息的任務(wù)判定為未完成任務(wù),向未完成任務(wù)的收集單元發(fā)送檢測信號(hào),若收集單元未回應(yīng),則將該任務(wù)判定為異常任務(wù),然后執(zhí)行步驟5.2;
步驟5.2,強(qiáng)制關(guān)閉異常任務(wù),并在步驟2.3創(chuàng)建的任務(wù)記錄中記錄該任務(wù)的關(guān)閉時(shí)間,以及異常堆棧信息。
步驟5.3,釋放該任務(wù)占用的子線程。
6.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建方法,其特征在于,所述爬蟲依賴模塊配置的網(wǎng)絡(luò)資源收集模塊與目標(biāo)網(wǎng)絡(luò)資源之間的依賴關(guān)系包括:目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)獲取接口、對目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)類型進(jìn)行描述的數(shù)據(jù)源類型;能夠從數(shù)據(jù)獲取接口對符合特定數(shù)據(jù)源類型的目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)進(jìn)行抓取的爬蟲程序的名稱。
7.根據(jù)權(quán)利要求6所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建方法,其特征在于所述目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)獲取接口是一段URL描述符。
8.根據(jù)權(quán)利要求1所述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,其特征在于,所述初始單元、收集單元、關(guān)閉單元中的一個(gè)或多個(gè)具有記錄網(wǎng)絡(luò)資源收集過程的工作日志。
9.一種利用權(quán)利要求1所述方法構(gòu)建的網(wǎng)絡(luò)資源收集系統(tǒng)進(jìn)行網(wǎng)絡(luò)資源收集的方法,其特征在于,包括以下步驟:
步驟9.1:抽取目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)源類型及數(shù)據(jù)獲取接口;
步驟9.2:將步驟9.1獲取的目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)類型及數(shù)據(jù)獲取接口輸送給爬蟲分配裝置,爬蟲分配裝置在爬蟲依賴模塊中根據(jù)數(shù)據(jù)源類型或數(shù)據(jù)獲取接口查找對應(yīng)的爬蟲程序的名稱;
步驟9.3:爬蟲分配裝置根據(jù)步驟9.2中獲取的爬蟲程序的名稱加載相應(yīng)的爬蟲程序?qū)嵗占繕?biāo)網(wǎng)絡(luò)資源。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410155856.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 用于確定網(wǎng)絡(luò)資源質(zhì)量信息的方法、裝置及設(shè)備
- 一種網(wǎng)絡(luò)資源建模方法和系統(tǒng)
- 網(wǎng)絡(luò)資源的分享及獲取方法、裝置、終端
- 一種網(wǎng)絡(luò)資源調(diào)度方法及網(wǎng)絡(luò)資源管理服務(wù)器
- 一種網(wǎng)絡(luò)資源轉(zhuǎn)移業(yè)務(wù)的處理方法及裝置
- 網(wǎng)絡(luò)資源的編排方法和設(shè)備
- 一種主配網(wǎng)一體化的動(dòng)態(tài)資源分配方法及裝置
- AP網(wǎng)絡(luò)資源分配方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)資源參數(shù)配置方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)資源確定方法及裝置





