[發(fā)明專利]基于scrapy的分布式暗網(wǎng)資源挖掘系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201810558520.2 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108829792A | 公開(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 劉丹;杜鳳媛;王永松;鄭云彬 | 申請(專利權(quán))人: | 成都康喬電子有限責(zé)任公司;電子科技大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都虹橋?qū)@聞?wù)所(普通合伙) 51124 | 代理人: | 陳立志 |
| 地址: | 610041 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 暗網(wǎng) 資源挖掘 任務(wù)隊(duì)列 控制模塊 中心節(jié)點(diǎn) 網(wǎng)頁 任務(wù)預(yù)處理 爬蟲 爬蟲種子 數(shù)據(jù)挖掘 管理器 存儲 | ||
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,公開了一種基于scrapy的分布式暗網(wǎng)資源挖掘系統(tǒng)及方法,用以提升暗網(wǎng)資源挖掘的效率、廣度以及靈活性。本發(fā)明包括中心節(jié)點(diǎn)控制模塊和從節(jié)點(diǎn)爬取模塊,所述中心節(jié)點(diǎn)控制模塊包括爬蟲種子任務(wù)隊(duì)列、任務(wù)預(yù)處理模塊、暗網(wǎng)任務(wù)隊(duì)列和明網(wǎng)任務(wù)隊(duì)列,所述從節(jié)點(diǎn)爬取模塊包括暗網(wǎng)爬取模塊、明網(wǎng)爬取模塊和爬蟲管理器;暗網(wǎng)在人為提供和通過明網(wǎng)爬取得暗網(wǎng)域名的基礎(chǔ)上再通過暗網(wǎng)爬取模塊和明網(wǎng)爬取模塊從暗網(wǎng)頁面和明網(wǎng)網(wǎng)頁中爬取更多的暗網(wǎng)域名,從而實(shí)現(xiàn)對暗網(wǎng)域名的大量獲取以及對暗網(wǎng)網(wǎng)頁頁面的存儲。本發(fā)明適用于暗網(wǎng)資源挖掘。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及基于scrapy的分布式暗網(wǎng)資源挖掘系統(tǒng)及方法。
背景技術(shù)
暗網(wǎng)是指通過特殊軟件或使用非標(biāo)準(zhǔn)的通信協(xié)議和端口才能訪問的網(wǎng)絡(luò)。Tor是目前最主流的暗網(wǎng)匿名通信系統(tǒng),由于暗網(wǎng)的完全匿名性的特點(diǎn),孕育了大量的非法交易。因此研究對暗網(wǎng)資源的挖掘有重大意義。傳統(tǒng)的搜索引擎和爬蟲技術(shù)能夠爬取的僅僅是互聯(lián)網(wǎng)上提供的小部分web信息,即明網(wǎng)上的信息。不能實(shí)現(xiàn)對暗網(wǎng)資源的挖掘。現(xiàn)有的研究大多又是針對互聯(lián)網(wǎng)上不能被標(biāo)準(zhǔn)搜素引擎索引的非表面網(wǎng)絡(luò)內(nèi)容即深網(wǎng),并不是現(xiàn)在所謂的暗網(wǎng);少數(shù)雖然針對暗網(wǎng)進(jìn)行研究及爬取,但在設(shè)計(jì)上沒有考慮爬取的效率,廣度,以及靈活性。
Scrapy是目前最主流的爬蟲框架,它是基于twisted異步網(wǎng)絡(luò)庫實(shí)現(xiàn)的,在爬取速度上相對其他爬蟲是高效的,且具有可定制性。然而Scrapy提供的下載模塊是基于http協(xié)議實(shí)現(xiàn)的,暗網(wǎng)使用的是socke協(xié)議。另外由于網(wǎng)絡(luò)爬蟲對I/O的要求較高,Scrapy將待爬取的URLs直接存儲在內(nèi)存中而非硬盤中,這樣一來,在爬取大量的暗網(wǎng)時時,當(dāng)爬取的網(wǎng)頁數(shù)量達(dá)到數(shù)萬時,需要存儲的URLs數(shù)量可能會超過百萬甚至千萬,再加上Python本身是腳本語言,其對象占用內(nèi)存往往比C/C++等編譯型語言要大得多,而且Python垃圾收集器的釋放內(nèi)存算法并不會在對象不再被引用時立即釋放內(nèi)存。因此,很可能會導(dǎo)致單機(jī)內(nèi)存枯竭。單機(jī)使用scrapy爬取,內(nèi)存將會是瓶頸。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:提供一種基于scrapy的分布式暗網(wǎng)資源挖掘系統(tǒng)及方法,用以提升暗網(wǎng)資源挖掘的效率、廣度以及靈活性。
為解決上述問題,本發(fā)明采用的技術(shù)方案是:
基于scrapy的分布式暗網(wǎng)資源挖掘系統(tǒng),包括中心節(jié)點(diǎn)控制模塊和從節(jié)點(diǎn)爬取模塊,所述中心節(jié)點(diǎn)控制模塊包括爬蟲種子任務(wù)隊(duì)列、任務(wù)預(yù)處理模塊、暗網(wǎng)任務(wù)隊(duì)列和明網(wǎng)任務(wù)隊(duì)列,所述從節(jié)點(diǎn)爬取模塊包括暗網(wǎng)爬取模塊、明網(wǎng)爬取模塊和爬蟲管理器;
所述爬蟲種子任務(wù)隊(duì)列用于存儲用戶提供的待爬取種子任務(wù),以及從節(jié)點(diǎn)爬取模塊提取的新的待爬取的種子任務(wù);所述任務(wù)預(yù)處理模塊用于對爬蟲種子任務(wù)隊(duì)列中的任務(wù)進(jìn)行匹配以及去重過濾,并將屬于暗網(wǎng)的任務(wù)存入暗網(wǎng)任務(wù)隊(duì)列,屬于明網(wǎng)的任務(wù)存入明網(wǎng)任務(wù)隊(duì)列;
所述暗網(wǎng)爬取模塊中的暗網(wǎng)爬蟲用于從暗網(wǎng)任務(wù)隊(duì)列中讀取暗網(wǎng)爬取任務(wù),基于暗網(wǎng)爬取任務(wù)下載對應(yīng)的暗網(wǎng)網(wǎng)頁,并從暗網(wǎng)網(wǎng)頁中提取新的暗網(wǎng)域名,將提取到的新的暗網(wǎng)域名存入爬蟲種子任務(wù)隊(duì)列;所述明網(wǎng)爬取模塊中的明網(wǎng)爬蟲用于從明網(wǎng)任務(wù)隊(duì)列中讀取明網(wǎng)爬取任務(wù),基于明網(wǎng)爬取任務(wù)下載對應(yīng)的明網(wǎng)網(wǎng)頁,并從明網(wǎng)網(wǎng)頁中提取新的明網(wǎng)域名和暗網(wǎng)域名,將提取到的新的明網(wǎng)域名和暗網(wǎng)域名存入爬蟲種子任務(wù)隊(duì)列;所述爬蟲管理器用于根據(jù)中心節(jié)點(diǎn)控制模塊發(fā)送的請求信息,對爬蟲進(jìn)程進(jìn)行管理。
進(jìn)一步的,本發(fā)明還包括Redis數(shù)據(jù)庫,所述Redis數(shù)據(jù)庫用于存儲暗網(wǎng)任務(wù)隊(duì)列和明網(wǎng)任務(wù)隊(duì)列。
進(jìn)一步的,本發(fā)明還包括kafka消息系統(tǒng),所述kafka消息系統(tǒng)用于存儲爬蟲種子任務(wù)隊(duì)列。
進(jìn)一步的,本發(fā)明還包括MongoDB數(shù)據(jù)庫,所述MongoDB數(shù)據(jù)庫用于存儲暗網(wǎng)爬取模塊所下載的暗網(wǎng)網(wǎng)頁以及明網(wǎng)爬取模塊所下載的明網(wǎng)網(wǎng)頁。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都康喬電子有限責(zé)任公司;電子科技大學(xué),未經(jīng)成都康喬電子有限責(zé)任公司;電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810558520.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種暗網(wǎng)數(shù)據(jù)搜索方法及搜索引擎
- 地下室暗埋碎石排水結(jié)構(gòu)
- 一種暗網(wǎng)數(shù)據(jù)采集與抽取系統(tǒng)及方法
- 一種基于樣本流量分析的暗網(wǎng)發(fā)現(xiàn)、溯源方法及系統(tǒng)
- 基于scrapy的分布式暗網(wǎng)資源挖掘系統(tǒng)及方法
- 一種基于長短期記憶神經(jīng)網(wǎng)絡(luò)的暗網(wǎng)資源探測系統(tǒng)
- 一種面向暗網(wǎng)的數(shù)據(jù)采集與分析系統(tǒng)及方法
- 一種暗網(wǎng)威脅情報(bào)收集與信息關(guān)聯(lián)系統(tǒng)和方法
- 一種基于網(wǎng)絡(luò)流量的暗網(wǎng)用戶行為檢測方法和系統(tǒng)
- 暗網(wǎng)泄露監(jiān)測方法、裝置、電子設(shè)備、程序和介質(zhì)
- 一種資源信息挖掘排序方法、裝置及服務(wù)器
- 基于日志的挖掘安全未知漏洞的方法和系統(tǒng)
- 一種問答資源的挖掘方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于大數(shù)據(jù)分析的網(wǎng)絡(luò)負(fù)載均衡方法和裝置
- 一種動態(tài)服務(wù)資源的數(shù)據(jù)挖掘方法
- 基于大數(shù)據(jù)分析的網(wǎng)絡(luò)負(fù)載均衡裝置
- 虛擬化網(wǎng)絡(luò)設(shè)備上的函數(shù)預(yù)熱系統(tǒng)及方法
- 跨數(shù)據(jù)、信息、知識多模態(tài)的特征挖掘方法及組件
- 基于本質(zhì)計(jì)算的跨模態(tài)特征挖掘方法及組件
- 一種基于事件日志挖掘的突發(fā)事件應(yīng)急資源優(yōu)化配置方法





