[發(fā)明專利]自適應(yīng)網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建及網(wǎng)絡(luò)資源收集方法在審
| 申請?zhí)枺?/td> | 201410155856.6 | 申請日: | 2014-04-18 |
| 公開(公告)號: | CN103902732A | 公開(公告)日: | 2014-07-02 |
| 發(fā)明(設(shè)計)人: | 鄒艷珍;張靈簫 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 王海洋 |
| 地址: | 100080*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自適應(yīng) 網(wǎng)絡(luò)資源 收集 系統(tǒng) 構(gòu)建 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種自適應(yīng)網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建及網(wǎng)絡(luò)資源收集方法,尤其是涉及通用的開源軟件項目相關(guān)的網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建及網(wǎng)絡(luò)資源的收集方法。
背景技術(shù)
開源軟件項目相關(guān)數(shù)據(jù)是計算機軟件研究的主要數(shù)據(jù)來源之一?,F(xiàn)有的開源軟件項目數(shù)據(jù)收集相關(guān)技術(shù)主要有如下兩種:
一是通過編寫單一目的數(shù)據(jù)抓取程序獲取開源軟件項目數(shù)據(jù)。研究人員首先確定所需數(shù)據(jù)在互聯(lián)網(wǎng)上的數(shù)據(jù)源,并且確定數(shù)據(jù)源中數(shù)據(jù)的存儲結(jié)構(gòu)和接口,然后根據(jù)數(shù)據(jù)源提供的數(shù)據(jù)接口針對性的編寫網(wǎng)絡(luò)爬蟲程序來抓取數(shù)據(jù)。
二是利用通用的網(wǎng)頁爬蟲技術(shù)進(jìn)行數(shù)據(jù)抓取?;ヂ?lián)網(wǎng)網(wǎng)頁爬蟲是現(xiàn)代搜索引擎的必備組建之一,相關(guān)技術(shù)較為成熟。網(wǎng)頁爬蟲技術(shù)能夠利用超鏈接便利、收集并下載互聯(lián)網(wǎng)站點中的網(wǎng)頁文件。開源社區(qū)中也有成熟可開源爬蟲項目可供擴展和使用,如Apache開源社區(qū)下的Nutch項目等。
但是,上述開源軟件項目相關(guān)的網(wǎng)絡(luò)資源數(shù)據(jù)收集方法存在以下問題:
(1)擴展性差。研究人員為特定數(shù)據(jù)源構(gòu)建的爬蟲程序往往只能針對特定數(shù)據(jù)源中特定格式的數(shù)據(jù)的,不具備功能上的擴展性,也無法進(jìn)行復(fù)用。而當(dāng)用戶需要擴展實驗數(shù)據(jù)集或者更改數(shù)據(jù)源時,則需要編寫更多的爬蟲程序。由于復(fù)用已有的爬蟲程序存在困難,研究人員在數(shù)據(jù)收集過程中需要付出大量的重復(fù)勞動。
(2)適用范圍有限。通用的網(wǎng)絡(luò)爬蟲程序只能針對網(wǎng)頁或其他文本文件進(jìn)行數(shù)據(jù)收集,不適用于非結(jié)構(gòu)化的開源數(shù)據(jù)。而在軟件項目數(shù)據(jù)收集的過程中,現(xiàn)有的爬蟲程序難以滿足開源軟件項目數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)接口的多樣性。
鑒于以上,由于現(xiàn)有技術(shù)中并不存在一個解決數(shù)據(jù)收集問題可復(fù)用的通用方法,導(dǎo)致研究人員在獲取研究數(shù)據(jù)的過程中耗費大量精力。因此,尋找一種更好的開源軟件項目相關(guān)數(shù)據(jù)的收集方法是很有必要的。
發(fā)明內(nèi)容
本發(fā)明主要是解決現(xiàn)有技術(shù)所存在的擴展性差和適用范圍有限等問題,提供了一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,該方法能適用于不同數(shù)據(jù)類型的目標(biāo)網(wǎng)絡(luò)資源,適用范圍廣,可擴展性強。
本發(fā)明的上述技術(shù)問題主要是通過下述技術(shù)方案得以解決的:
一種自適應(yīng)的網(wǎng)絡(luò)資源收集系統(tǒng)的構(gòu)建方法,包括:配置一個統(tǒng)一的網(wǎng)絡(luò)資源收集模塊,所述網(wǎng)絡(luò)資源收集模塊包括一個統(tǒng)一的爬蟲分配裝置以及與若干等待調(diào)用的爬蟲執(zhí)行單元,該爬蟲分配裝置包括:
初始單元:為網(wǎng)絡(luò)資源收集準(zhǔn)備必要的存儲空間及系統(tǒng)開銷;
收集單元:具有統(tǒng)一爬蟲程序接口,能根據(jù)目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù)類型選擇不同爬蟲程序收集目標(biāo)網(wǎng)絡(luò)資源的數(shù)據(jù);
關(guān)閉單元:在收集裝置收集到所需要的目標(biāo)數(shù)據(jù)后釋放系統(tǒng)開銷以及在收集裝置出現(xiàn)異常時進(jìn)行異常處理;
配置一個爬蟲依賴模塊,該模塊用于配置網(wǎng)絡(luò)資源收集模塊與目標(biāo)網(wǎng)絡(luò)資源之間的依賴關(guān)系;網(wǎng)絡(luò)資源收集模塊能夠通過爬蟲依賴模塊建立的依賴關(guān)系通過爬蟲分配裝置配置相應(yīng)爬蟲執(zhí)行單元執(zhí)行資源收集。
優(yōu)化的,上述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,初始單元用于爬蟲程序在信息抓取之前進(jìn)行的預(yù)處理過程,包括以下子步驟:
步驟2.1,取得空閑子線程;
步驟2.2,建立用于存儲開源項目的文件系統(tǒng);
步驟2.3,創(chuàng)建抓取資源的任務(wù)記錄。
上述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,收集單元用于對目標(biāo)網(wǎng)絡(luò)資源的抓取,包括以下子步驟:
步驟3.1,根據(jù)爬蟲依賴模塊中的依賴關(guān)系找到相應(yīng)的爬蟲執(zhí)行單元,在步驟2.1取得的子線程中建立一個該爬蟲類的實例;
步驟3.2,調(diào)用統(tǒng)一爬蟲程序接口進(jìn)行數(shù)據(jù)抓取。
優(yōu)化的,上述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,關(guān)閉單元在抓取完成后釋放系統(tǒng)開銷,包括以下子步驟:
步驟4.1,在步驟2.3創(chuàng)建的任務(wù)記錄中記錄任務(wù)結(jié)束信息。
步驟4.2,步驟4.2,釋放該任務(wù)占用的子線程。
優(yōu)化的,上述的一種自適應(yīng)的網(wǎng)絡(luò)資源收集方法,關(guān)閉單元在在抓取出錯后能進(jìn)行異常處理,包括以下子步驟:
步驟5.1:關(guān)閉單元定期讀取步驟2.3中創(chuàng)建的任務(wù)記錄,將所述任務(wù)記錄中未記載結(jié)束信息的任務(wù)判定為未完成任務(wù),向未完成任務(wù)的收集單元發(fā)送檢測信號,若收集單元未回應(yīng),則將該任務(wù)判定為異常任務(wù),然后執(zhí)行步驟5.2;
步驟5.2,強制關(guān)閉異常任務(wù),并在步驟2.3創(chuàng)建的任務(wù)記錄中記錄該任務(wù)的關(guān)閉時間,以及異常堆棧信息。
步驟5.3,釋放該任務(wù)占用的子線程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410155856.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機匣和自適應(yīng)風(fēng)扇的智能發(fā)動機
- 一種自適應(yīng)樹木自動涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動機燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 用于確定網(wǎng)絡(luò)資源質(zhì)量信息的方法、裝置及設(shè)備
- 一種網(wǎng)絡(luò)資源建模方法和系統(tǒng)
- 網(wǎng)絡(luò)資源的分享及獲取方法、裝置、終端
- 一種網(wǎng)絡(luò)資源調(diào)度方法及網(wǎng)絡(luò)資源管理服務(wù)器
- 一種網(wǎng)絡(luò)資源轉(zhuǎn)移業(yè)務(wù)的處理方法及裝置
- 網(wǎng)絡(luò)資源的編排方法和設(shè)備
- 一種主配網(wǎng)一體化的動態(tài)資源分配方法及裝置
- AP網(wǎng)絡(luò)資源分配方法、裝置、設(shè)備、系統(tǒng)及存儲介質(zhì)
- 一種網(wǎng)絡(luò)資源參數(shù)配置方法、裝置和計算機可讀存儲介質(zhì)
- 一種網(wǎng)絡(luò)資源確定方法及裝置





