[發(fā)明專利]面向軟件項目的多源異構(gòu)數(shù)據(jù)自動收集方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710301051.1 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107220297B | 公開(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計)人: | 鄒艷珍;倪際楠;曹英魁;謝冰;趙俊峰 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F9/48;G06F9/50 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 余功勛 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 軟件 項目 多源異構(gòu) 數(shù)據(jù) 自動 收集 方法 系統(tǒng) | ||
1.面向軟件項目的多源異構(gòu)數(shù)據(jù)自動收集方法,其步驟包括:
1)根據(jù)用戶輸入的軟件項目名稱及URL,并利用通用的基于廣度優(yōu)先的網(wǎng)頁爬蟲方法,對與該軟件項目相關(guān)的多個站點(diǎn)中的所有Web頁面進(jìn)行爬取;
2)當(dāng)上述爬取的Web頁面中的URL是已知的數(shù)據(jù)類型的數(shù)據(jù)入口地址時,根據(jù)已知的不同數(shù)據(jù)類型的數(shù)據(jù)入口地址創(chuàng)建其對應(yīng)的數(shù)據(jù)爬取任務(wù),并調(diào)用對應(yīng)的爬取方法進(jìn)行數(shù)據(jù)爬取;其中所述調(diào)用對應(yīng)的爬取方法進(jìn)行數(shù)據(jù)爬取包括以下步驟:
2-1)對上述創(chuàng)建的多個數(shù)據(jù)爬取任務(wù)進(jìn)行調(diào)度;
2-2)當(dāng)系統(tǒng)資源足夠時,對每個數(shù)據(jù)爬取任務(wù)分配系統(tǒng)資源,并構(gòu)建存儲目錄;
2-3)爬取上述每個數(shù)據(jù)爬取任務(wù)中的URL目錄,并將URL目錄進(jìn)行劃分;
2-4)根據(jù)上述劃分的URL目錄創(chuàng)建多個子線程,并進(jìn)行多線程數(shù)據(jù)爬取;
2-5)當(dāng)上述所有子線程數(shù)據(jù)爬取結(jié)束后,釋放系統(tǒng)資源;
3)對上述爬取的數(shù)據(jù)進(jìn)行解析并存儲到數(shù)據(jù)庫中。
2.如權(quán)利要求1所述的方法,其特征在于,步驟2)采用以下步驟判斷上述爬取的Web頁面中的URL是否是已知的數(shù)據(jù)類型的數(shù)據(jù)入口地址:
1)調(diào)用detect方法判斷上述爬取的Web頁面中的URL是否是已知的數(shù)據(jù)類型的資源頁面對應(yīng)的地址,若是則過濾掉以提高爬取效率,否則繼續(xù)對該Web頁面中的URL進(jìn)行判斷;
2)調(diào)用detectEntry方法判斷上述過濾后得到的Web頁面中的URL是否是已知的數(shù)據(jù)類型的數(shù)據(jù)入口地址,若是則根據(jù)已知的不同數(shù)據(jù)類型的數(shù)據(jù)入口地址創(chuàng)建其對應(yīng)的數(shù)據(jù)爬取任務(wù),否則繼續(xù)利用上述通用的基于廣度優(yōu)先的網(wǎng)頁爬蟲方法進(jìn)行爬取。
3.如權(quán)利要求1所述的方法,其特征在于,步驟2)中所述數(shù)據(jù)爬取任務(wù)包括軟件項目相關(guān)信息以及需要爬取的數(shù)據(jù)類型;其中所述軟件項目相關(guān)信息包括軟件項目名稱、軟件項目爬取開始時間、軟件項目URL。
4.如權(quán)利要求1所述的方法,其特征在于,步驟2-2)中所述存儲目錄包括存儲文件目錄和爬取任務(wù)記錄;其中所述存儲文件目錄是指“軟件項目名稱/資源名稱”形式的文件目錄;所述爬取任務(wù)記錄包括軟件項目名稱、數(shù)據(jù)類型、存儲地址、任務(wù)狀態(tài)。
5.面向軟件項目的多源異構(gòu)數(shù)據(jù)自動收集系統(tǒng),包括多任務(wù)多線程數(shù)據(jù)爬取模塊、多源異構(gòu)軟件項目數(shù)據(jù)自動收集模塊和數(shù)據(jù)解析存儲模塊;
所述多任務(wù)多線程數(shù)據(jù)爬取模塊用于對多個數(shù)據(jù)爬取任務(wù)進(jìn)行統(tǒng)一的調(diào)度,并對不同類型的數(shù)據(jù)實(shí)現(xiàn)不同的爬取方法,以根據(jù)不同數(shù)據(jù)類型的數(shù)據(jù)入口地址自動調(diào)用不同的爬取方法對不同類型的數(shù)據(jù)爬取任務(wù)進(jìn)行數(shù)據(jù)爬取;
所述多源異構(gòu)軟件項目數(shù)據(jù)自動收集模塊用于根據(jù)用戶輸入的軟件項目名稱及URL自動化探測該軟件項目數(shù)據(jù)的數(shù)據(jù)類型及其對應(yīng)的數(shù)據(jù)入口地址,并根據(jù)已知的不同數(shù)據(jù)類型的數(shù)據(jù)入口地址創(chuàng)建其對應(yīng)的數(shù)據(jù)爬取任務(wù),在所述多任務(wù)多線程數(shù)據(jù)爬取模塊中調(diào)用對應(yīng)的爬取方法對數(shù)據(jù)進(jìn)行收集;
所述數(shù)據(jù)解析存儲模塊用于對所述多源異構(gòu)軟件項目數(shù)據(jù)自動收集模塊收集的數(shù)據(jù)進(jìn)行解析并存儲到數(shù)據(jù)庫中。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述多任務(wù)多線程數(shù)據(jù)爬取模塊包括任務(wù)管理模塊和數(shù)據(jù)爬取模塊;其中所述數(shù)據(jù)爬取模塊包括任務(wù)初始化模塊、數(shù)據(jù)爬取單線程運(yùn)行模塊、數(shù)據(jù)爬取多線程運(yùn)行模塊和任務(wù)結(jié)束模塊;
所述任務(wù)管理模塊用于對多個數(shù)據(jù)爬取任務(wù)進(jìn)行統(tǒng)一的調(diào)度;
所述任務(wù)初始化模塊用于為上述每個數(shù)據(jù)爬取任務(wù)分配系統(tǒng)資源,并構(gòu)建存儲目錄;
所述數(shù)據(jù)爬取單線程運(yùn)行模塊用于爬取上述每個數(shù)據(jù)爬取任務(wù)中的URL目錄,并將URL目錄進(jìn)行劃分;
所述數(shù)據(jù)爬取多線程運(yùn)行模塊用于根據(jù)上述劃分的URL目錄創(chuàng)建多個子線程,并進(jìn)行多線程數(shù)據(jù)爬取;
所述任務(wù)結(jié)束模塊用于對上述所有子線程數(shù)據(jù)爬取結(jié)束后釋放系統(tǒng)資源,并記錄所述數(shù)據(jù)爬取模塊的結(jié)束狀態(tài)。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述任務(wù)結(jié)束處理模塊還用于對所述數(shù)據(jù)爬取模塊發(fā)生異常結(jié)束處理時進(jìn)行異常錯誤處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710301051.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于應(yīng)用軟件散布的軟件授權(quán)與保護(hù)方法及系統(tǒng)
- 一種用于航空機(jī)載設(shè)備的軟件在線加載系統(tǒng)及方法
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 惡意軟件檢測方法及裝置
- 一種基于軟件基因的軟件同源性分析方法和裝置
- 軟件引入系統(tǒng)、軟件引入方法及存儲介質(zhì)
- 軟件驗證裝置、軟件驗證方法以及軟件驗證程序
- 使用靜態(tài)和動態(tài)惡意軟件分析來擴(kuò)展惡意軟件的動態(tài)檢測
- 一種工業(yè)控制軟件構(gòu)建方法和軟件構(gòu)建系統(tǒng)
- 可替換游戲軟件與測驗軟件的裝置與方法
- 多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
- 用于電網(wǎng)的多源異構(gòu)數(shù)據(jù)處理方法及裝置
- 一種配用電數(shù)據(jù)的處理方法及系統(tǒng)
- 一種面向水下探測的多源異構(gòu)數(shù)據(jù)預(yù)處理方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的綜采工作面多源異構(gòu)數(shù)據(jù)融合方法
- 基于業(yè)務(wù)規(guī)則的多源異構(gòu)數(shù)據(jù)表示與分發(fā)方法、裝置
- 一種基于邊緣計算的電力異構(gòu)數(shù)據(jù)處理方法
- 適用于多源異構(gòu)電網(wǎng)的運(yùn)行方式拓?fù)浣Y(jié)構(gòu)特征提取方法
- 一種多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置





