[發明專利]一種基于MapReduce框架的數據篩選方法有效
| 申請號: | 201310101529.8 | 申請日: | 2013-03-27 |
| 公開(公告)號: | CN103150400B | 公開(公告)日: | 2017-06-06 |
| 發明(設計)人: | 楊超;方宸;涂來 | 申請(專利權)人: | 領航動力信息系統有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 劉麗君 |
| 地址: | 430071 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 框架 數據 篩選 方法 | ||
技術領域
本發明涉及數據篩選技術領域,主要適用于基于MapReduce框架的數據篩選方法。
背景技術
Hadoop是一個開源的分布式系統框架,用戶可以在不了解分布式底層細節的情況下,開發分布式程序。它實現了一個分布式的文件系統(HDFS),具有高容錯性的特點,而且還可以部署在低廉的硬件上。它還提供了高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。HDFS放寬了POSIX的要求,這樣就可以以流的形式訪問文件系統中的數據。
基于Hadoop的業務平臺一般都只有少量的用戶,并且這些用戶都是十分熟悉Hadoop的相關操作的,這里稱為Hadoop管理員。如果有不了解Hadoop操作的用戶想要訪問或者使用業務平臺里的數據,則需要將需求詳細地告訴Hadoop管理員,讓他們去實現自己的要求。但隨著數據量的增大以及數據處理需求的增多,少數的幾個管理員已經不能很高效的完成其他用戶的需求了。并且對于業務平臺中數據的操作,除去Hadoop自帶的一些功能如存儲、刪除、下載數據等,其他的操作都可以通過管理員將寫好的程序打包放在平臺上,供普通用戶去使用這些程序接口來實現,這樣能夠大大地提高平臺的使用效率。用戶會經常使用的操作有很多,比如基于多關鍵字的查找篩選。但是目前在Hadoop平臺上,并沒有實現對數據的篩選功能,這樣不能保證用戶處理數據的效率和Hadoop平臺的使用效率。由于是多個用戶共享一個文件系統,因此平臺的管理員無法對用戶的權限信息進行有效地管理。
發明內容
為了解決Hadoop操作平臺上不具備數據篩選功能及使用效率低等問題,本發明提供了一種基于MapReduce框架的數據篩選方法,包括:輸入篩選需求;所述篩選需求包括:數據的輸入路徑、數據的輸出路徑、字段序號、篩選上限、篩選下限及篩選關鍵字;
進行數據篩選;統計篩選需求中待篩選數據的字段總數N,令一個整型變量X的初始值為1;根據篩選需求提取篩選范圍或關鍵字對待篩選的數據進行范圍篩選或關鍵字篩選;判斷所述整型變量X是否等于所述字段總數N;
若X不等于N,則將整型變量X加1,繼續對數據進行篩選直至待篩選的數據符合所有的篩選條件;將篩選后的數據按所述輸出路徑輸出到目的地址;
若X等于N,則將篩選后的數據按所述輸出路徑輸出到目的地址。
所述進行數據篩選的步驟還包括:判斷輸入的篩選需求是否合法;若所述篩選需求合法,則進行數據篩選。
所述判斷輸入的篩選需求是否合法的步驟具體包括:判斷MapReduce是否支持所述篩選需求的格式;若所述MapReduce支持篩選需求的格式,判斷篩選需求中數據的輸入路徑在文件系統中是否存在;若所述數據的輸入路徑在所述文件系統中存在,判斷所述篩選需求中數據的輸出路徑在所述文件系統中是否存在;若所述數據的輸出路徑在所述文件系統中不存在,判斷所述篩選需求中待篩選數據的字段序號在所述文件系統中是否都存在;若所述字段序號在所述文件系統中都存在,則說明篩選需求是合法的。
所述根據篩選需求提取篩選范圍或關鍵字對待篩選的數據進行范圍篩選或關鍵字篩選的步驟具體包括:提取出篩選需求中字段序號所代表的數據;根據篩選需求判斷是否需要對數據進行范圍篩選;
若需要對數據進行范圍篩選,則從篩選需求中提取出篩選上限和篩選下限;判斷輸入的字段序號是否在篩選范圍內,若字段序號在篩選范圍內,則對字段序號代表的數據進行保存;
若不需要對數據進行范圍篩選,則從篩選需求中提取關鍵字,判斷輸入的字段序號所代表的內容是否等于關鍵字,若所述內容等于關鍵字,則對字段序號代表的數據進行保存。
所述待篩選的數據符合所有的篩選條件的步驟還包括:判斷文件系統中的數據是否都經過了篩選;
若文件系統中不是所有數據都經過了篩選,則對文件系統中未篩選的數據進行篩選直至文件系統中的所有數據都經過了篩選;將篩選后的數據按所述數據的輸出路徑輸出到目的地址;
若文件系統中的所有數據都經過了篩選,則將篩選后的數據按所述數據的輸出路徑輸出到目的地址。
所述將篩選后的數據按所述數據的輸出路徑輸出到目的地址的步驟具體包括:對篩選得到的數據進行整合得到包含鍵和值的數據對,作為化簡運算的輸入;再將所述化簡運算的輸出設為空,最后將得到的數據按數據的輸出路徑輸出到目的地址。
本發明的有益效果在于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于領航動力信息系統有限公司,未經領航動力信息系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310101529.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





