[發明專利]一種政務大數據預處理系統及處理方法有效
| 申請號: | 201410578565.8 | 申請日: | 2014-10-24 |
| 公開(公告)號: | CN104361031B | 公開(公告)日: | 2018-06-19 |
| 發明(設計)人: | 王茜;史晨昱;白峰;李安穎;劉守倉;杜威 | 申請(專利權)人: | 西安未來國際信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 羅笛 |
| 地址: | 710075 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預處理系統 大數據 預處理 非結構化數據 數據抽取模塊 分布式調度 抽取模塊 工作能力 不均衡 并行 數據預處理模塊 管理控制臺 框架連接 數據處理 智能 | ||
本發明公開了一種政務大數據預處理系統,包括數據抽取模塊、非結構化數據抽取模塊、數據預處理模塊、分布式調度框架和管理控制臺,數據抽取模塊和非結構化數據抽取模塊均與分布式調度框架連接。本發明一種政務大數據預處理系統,解決了現有預處理系統面對大數據預處理時的效率低下、精確性差、負載不均衡、并行工作能力差、不智能等問題。本發明還提供了一種政務大數據處理的方法,解決了現有預處理系統面對大數據預處理時的效率低下、精確性差、負載不均衡、并行工作能力差、不智能等問題。
技術領域
本發明屬于大數據處理技術領域,涉及一種政務大數據預處理系統,本發明還涉及一種政務大數據預處理的方法。
背景技術
隨著信息技術的飛速發展,人類已經進入了以深度挖掘數據價值為核心的大數據時代。人們可以利用大數據技術對數據間的關系進行分析做出科學的決策,改變過去依靠經驗和直覺做決策的方式。政府擁有海量的、權威的信息資源優勢,如果借助大數據發展,可以進一步推動電子政務建設,為社會提供更好的服務和公共產品。大數據從數據源經過分析挖掘到最終獲得價值一般經過幾個主要環節,包括數據預處理、數據存儲與管理、計算處理(批處理、流處理、交互分析)、數據挖掘與分析、分布式檢索、數據交付等幾部分。數據預處理作為后續處理的前端處理,在應用大數據時,如果不對數據進行預處理,單純依賴服務器的計算能力,無法滿足大數據場景下對處理速度、處理精確性等的要求,且會增加大數據處理系統的壓力。
數據預處理系統是指在主要的處理以前對數據進行的一些處理,目標是將獲得的低質量的數據轉換成高質量便于存儲、處理的數據集。
目前,政務活動產生的數據主要存儲在關系型數據庫中,利用大數據技術對政務數據進行深度挖掘分析,首先應該將這些不同數據庫的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群。從不同數據庫抽取出的數據存在各種缺陷不利于后期的挖掘分析,比如數據源格式不同、數據疊加了噪聲、數據有冗余和重復、數據有錯誤等,低質量的數據處理后得不到高質量的結果。所以我們應該在導入的基礎上做一些清洗和預處理工作。在數據導入和預處理的過程中最大的特點和挑戰主要是導入的數據量大,每秒鐘的導入經常會達到百兆甚至千兆級別。因此,基于大數據種類多樣、數據量大、處理速度要求高的特點,需要一種能夠協調各種預處理操作以保證快速高效處理大批量數據的系統。
發明內容
本發明提供了一種政務大數據預處理系統,解決了現有預處理系統面對大數據預處理時的效率低下、精確性差、負載不均衡、并行工作能力差、不智能等問題。
本發明還提供了一種政務大數據處理的方法,解決了現有預處理系統面對大數據預處理時的效率低下、精確性差、負載不均衡、并行工作能力差、不智能等問題。
本發明所采用的一種技術方案是,一種政務大數據預處理系統,包括結構化數據抽取模塊、非結構化數據抽取模塊、數據預處理模塊、分布式調度框架和管理控制臺,數據抽取模塊和非結構化數據抽取模塊均與分布式調度框架連接。
本發明一種技術方案的特點還在于,
數據預處理模塊包括數據檢驗單元、數據轉換單元、數據合并單元、數據壓縮單元、數據去重單元和數據寫入單元。
分布式調度框架由客戶端、分布式調度系統和處理端組成。
管理控制臺包括數據源管理單元、任務調度管理單元、信息統計單元、數據校驗單元和故障回退控制單元。
本發明所采用的另一種技術方案是,一種政務大數據處理方法,利用上述的政務大數據預處理系統,其結構為:
包括結構化數據抽取模塊、非結構化數據抽取模塊、數據預處理模塊、分布式調度框架和管理控制臺,數據抽取模塊和非結構化數據抽取模塊均與分布式調度框架連接;
數據預處理模塊包括數據檢驗單元、數據轉換單元、數據合并單元、數據壓縮單元、數據去重單元和數據寫入單元;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安未來國際信息股份有限公司,未經西安未來國際信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410578565.8/2.html,轉載請聲明來源鉆瓜專利網。





