[發明專利]基于Hadoop的數據處理方法有效
| 申請號: | 201911253880.2 | 申請日: | 2019-12-09 |
| 公開(公告)號: | CN111078635B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 林森;唐寧;馬娜 | 申請(專利權)人: | 天津快友世紀科技有限公司 |
| 主分類號: | G06F16/14 | 分類號: | G06F16/14;G06F16/16;G06F16/182 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 300000 天津市濱海新區天津自貿試驗*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 hadoop 數據處理 方法 | ||
本發明公開了一種基于Hadoop的數據采集優先級判定及處理方法,該方法利用Hadoop分布式文件系統來處理海量數據,所述的Hadoop分布式文件系統包括用戶節點、命名節點、掃描模塊和子節點,所述的用戶節點包括JAVA虛擬機,所述的JAVA虛擬機包括Hadoop用戶端,該Hadoop用戶端分別與分布式文件子系統和數據輸出流交互;所述命名節點儲存調用頻率檢測信息,調用頻率檢測信息包括各調用子節點的頻率次數,所述命名節點根據所述子節點的頻率次數依次將所述子節點進行優先權劃分,所述子節點的頻率次數越高,優先權越大。
技術領域
本發明涉及數據處理技術領域,具體涉及一種基于Hadoop的數據處理方法。
背景技術
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。Hadoop實現了一個分布式文件系統,有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。Hadoop分布式文件系統可以以流的形式訪問(streamingaccess)文件系統中的數據。
Hadoop由Apache Software Foundation公司于2005年秋天作為Lucene的子項目Nutch的一部分正式引入。它受到最先由Google Lab開發的Map/Reduce和Google FileSystem(GFS)的啟發。
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多并行計算指令,跨大量的計算節點運行非常巨大的數據集。使用該框架的一個典型例子就是在網絡數據上運行的搜索算法。Hadoop最初只與網頁索引有關,迅速發展成為分析大數據的領先平臺。
Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。
Hadoop設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。到目前為止,Hadoop技術在互聯網領域已經得到了廣泛的運用,例如,Yahoo使用4000個節點的Hadoop集群來支持廣告系統和Web搜索的研究;Facebook使用1000個節點的集群運行Hadoop,存儲日志數據,支持其上的數據分析和機器學習;百度用Hadoop處理每周200TB的數據,從而進行搜索日志分析和網頁數據挖掘工作;中國移動研究院基于Hadoop開發了“大云”(Big Cloud)系統,不但用于相關數據分析,還對外提供服務;淘寶的Hadoop系統用于存儲并處理電子商務交易的相關數據。國內的高校和科研院所基于Hadoop在數據存儲、資源管理、作業調度、性能優化、系統高可用性和安全性方面進行研究,相關研究成果多以開源形式貢獻給Hadoop社區。
現有技術中Hadoop分布式文件系統的文件是一次寫入的,并且在任何時候都只有一個寫入器。也就是說,Hadoop分布式文件系統的文件支持一次寫入多次讀取,這意味著一旦寫入信息,就無法修改,但可以多次讀取。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津快友世紀科技有限公司,未經天津快友世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911253880.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:功耗控制方法、存儲介質及電子設備
- 下一篇:一種仿真場景實時控制方法和裝置





