[發(fā)明專利]一種基于垂直行業(yè)的多任務式采集與收割方法在審
| 申請?zhí)枺?/td> | 201410774655.4 | 申請日: | 2014-12-16 |
| 公開(公告)號: | CN104391990A | 公開(公告)日: | 2015-03-04 |
| 發(fā)明(設計)人: | 王詩華;王傳超;孫海峰 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 垂直 行業(yè) 任務 采集 收割 方法 | ||
1.一種基于垂直行業(yè)的多任務式采集與收割方法,?其特征在于,具體步驟如下:
步驟1:客戶根據(jù)需求主題,通過某些或者某類行業(yè)網(wǎng)站,分析并定義出所需的數(shù)據(jù)要素,發(fā)送給本專利的gReap采割系統(tǒng);
步驟2:gReap采割系統(tǒng)根據(jù)請求數(shù)據(jù),自動匹配行業(yè)模板及其采割方法,并回饋給客戶以驗證是否符合要求,如果不符合,提供給用戶自定義數(shù)據(jù)模型和采割方法,以便gReap按需提供實現(xiàn)數(shù)據(jù)和內(nèi)容的交付;
步驟3:確定任務模板,gReap系統(tǒng)中的適配模塊首先接收到這個模板,將模板分解為多個采集任務,并將每個任務分配給調(diào)度監(jiān)控集群;
步驟4:調(diào)度節(jié)點根據(jù)任務進行按維度劃分,并負責將各個子任務分配給執(zhí)行節(jié)點,同時監(jiān)控執(zhí)行情況,對于異?;蛘叱鲥e的子任務動態(tài)遷移到正常執(zhí)行節(jié)點,調(diào)度節(jié)點與執(zhí)行節(jié)點依賴MapReduce計算模型;
步驟5:執(zhí)行節(jié)點融合Nutch思路,按獨立網(wǎng)址維護采集周期,并納入gReap語義化采集模塊進行采集,該模塊用以解決主要反爬宿主的數(shù)據(jù)采集;
步驟6:在執(zhí)行完成采集以后,執(zhí)行節(jié)點主動心跳狀態(tài),gReap系統(tǒng)收割模塊負責異構收割,并按照一定的規(guī)則進行數(shù)據(jù)預處理,并進行收割庫歸檔,以備后續(xù)數(shù)據(jù)分析;
步驟7:收割庫的歸檔借助于Hadoop分布式文件系統(tǒng),采用列式數(shù)據(jù)分布存儲方式,以提供海量存儲和高性能的讀寫速度,以及安全的容災能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經(jīng)浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410774655.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種子圖匹配的查詢方法
- 下一篇:業(yè)務重分類裝置和方法





