[發明專利]一種基于垂直行業的多任務式采集與收割方法在審
| 申請號: | 201410774655.4 | 申請日: | 2014-12-16 |
| 公開(公告)號: | CN104391990A | 公開(公告)日: | 2015-03-04 |
| 發明(設計)人: | 王詩華;王傳超;孫海峰 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 垂直 行業 任務 采集 收割 方法 | ||
技術領域
本發明涉及一種計算機應用,?涉及行業垂直搜索采集、分布式計算與存儲技術領域,具體地說是一種基于垂直行業的多任務式采集與收割方法。
背景技術
當今已經是數據大爆炸的時代,各個行業面臨著大部分的問題如下:
1、集中管理互聯網垂直行業數據。從無規則、無行業分類的互聯網獲取到針對性的行業價值的信息;
2、主流的Nutch等很難原生的滿足多任務,并且定制采集和加工數據的需求,同時還需要解決大型互聯網公司的反爬機制;
3、采集到的互聯網數據如何自動收割和語義化存儲,并與內部數據做共享與整合;?
4、海量數據的存儲,快速讀寫與容災;
5、集群管理維護難。原有系統沒有一個從硬件到軟件到服務狀態的整體監控和管理系統。
發明內容
本發明的目的是基于“自定義的主從式、多任務采集和收割”將客戶定義的一個垂直行業業務需求,進行智能的匹配采集源和數據元素;將定義好的一個需求主題經過本專利的gReap系統進行多任務化為任務集合,集合中任意一個任務可再按維度細化成子任務,按照主從心跳模式由調度節點分配給執行節點執行采集,對于執行完采集的節點,調度節點主動進行收割,采取分布式存儲,并與行業內部組織數據進行整合分析的技術。
本發明的目的是按以下方式實現的,具體步驟如下:
步驟1:客戶根據需求主題,通過某些或者某類行業網站,分析并定義出所需的數據要素,發送給本專利的gReap采割系統;
步驟2:gReap采割系統根據請求數據,自動匹配行業模板及其采割方法,并回饋給客戶以驗證是否符合要求,如果不符合,提供給用戶自定義數據模型和采割方法,以便gReap按需提供實現數據和內容的交付;
步驟3:確定任務模板,gReap系統中的適配模塊首先接收到這個模板,將模板分解為多個采集任務,并將每個任務分配給調度監控集群;
步驟4:調度節點根據任務進行按維度劃分,并負責將各個子任務分配給執行節點,同時監控執行情況,對于異常或者出錯的子任務動態遷移到正常執行節點,調度節點與執行節點依賴MapReduce計算模型;
步驟5:執行節點融合Nutch思路,按獨立網址維護采集周期,并納入gReap語義化采集模塊進行采集,該模塊用以解決主要反爬宿主的數據采集;
步驟6:在執行完成采集以后,執行節點主動心跳狀態,gReap系統收割模塊負責異構收割,并按照一定的規則進行數據預處理,并進行收割庫歸檔,以備后續數據分析;
步驟7:收割庫的歸檔借助于Hadoop分布式文件系統,采用列式數據分布存儲方式,以提供海量存儲和高性能的讀寫速度,以及安全的容災能力。
本發明的目的有益效果是:該方法用以填補市面主流搜索采集及其數據匯總技術的部分短板。解決了垂直行業關于多源化、互異化數據采集中多任務定制與協同困難,定制化解析語義不強,無法智慧化數據并及時收割等難題。通過實現該方法的互聯網行業數據采集,再疊加政府企業內部組織數據以融合大數據,讓我們透過數據背后分析出市場價值與趨勢。
附圖說明
圖1為gReap系統的整體核心流程圖。
具體實施方式
參照說明書附圖對本發明的方法作以下詳細地說明。
提供一種基于垂直行業的多任務式采集與收割方法,具體步驟如下:
步驟1:客戶根據需求主題,通過某些或者某類行業網站,分析并定義出所需的數據要素,發送給本專利的gReap采割系統;
步驟2:gReap采割系統根據請求數據,自動匹配行業模板及其采割方法,并回饋給客戶以驗證是否符合要求,如果不符合,提供給用戶自定義數據模型和采割方法,以便gReap按需提供實現數據和內容的交付;
步驟3:確定任務模板,gReap系統中的適配模塊首先接收到這個模板,將模板分解為多個采集任務,并將每個任務分配給調度監控集群;
步驟4:調度節點根據任務進行按維度劃分,并負責將各個子任務分配給執行節點,同時監控執行情況,對于異常或者出錯的子任務動態遷移到正常執行節點,調度節點與執行節點依賴MapReduce計算模型;
步驟5:執行節點融合Nutch思路,按獨立網址維護采集周期,并納入gReap語義化采集模塊進行采集,該模塊用以解決主要反爬宿主的數據采集;
步驟6:在執行完成采集以后,執行節點主動心跳狀態,gReap系統收割模塊負責異構收割,并按照一定的規則進行數據預處理,并進行收割庫歸檔,以備后續數據分析;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410774655.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種子圖匹配的查詢方法
- 下一篇:業務重分類裝置和方法





