[發(fā)明專利]一種政務(wù)大數(shù)據(jù)預(yù)處理系統(tǒng)及處理方法有效
| 申請?zhí)枺?/td> | 201410578565.8 | 申請日: | 2014-10-24 |
| 公開(公告)號: | CN104361031B | 公開(公告)日: | 2018-06-19 |
| 發(fā)明(設(shè)計)人: | 王茜;史晨昱;白峰;李安穎;劉守倉;杜威 | 申請(專利權(quán))人: | 西安未來國際信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 羅笛 |
| 地址: | 710075 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 預(yù)處理系統(tǒng) 大數(shù)據(jù) 預(yù)處理 非結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)抽取模塊 分布式調(diào)度 抽取模塊 工作能力 不均衡 并行 數(shù)據(jù)預(yù)處理模塊 管理控制臺 框架連接 數(shù)據(jù)處理 智能 | ||
1.一種政務(wù)大數(shù)據(jù)處理方法,其特征在于,利用政務(wù)大數(shù)據(jù)預(yù)處理系統(tǒng),其結(jié)構(gòu)為:
包括結(jié)構(gòu)化數(shù)據(jù)抽取模塊(1)、非結(jié)構(gòu)化數(shù)據(jù)抽取模塊(2)、數(shù)據(jù)預(yù)處理模塊、分布式調(diào)度框架和管理控制臺,所述結(jié)構(gòu)化數(shù)據(jù)抽取模塊(1)和所述非結(jié)構(gòu)化數(shù)據(jù)抽取模塊(2)均與分布式調(diào)度框架連接;
所述數(shù)據(jù)預(yù)處理模塊包括數(shù)據(jù)檢驗單元(3)、數(shù)據(jù)轉(zhuǎn)換單元(4)、數(shù)據(jù)合并單元(5)、數(shù)據(jù)壓縮單元(6)、數(shù)據(jù)去重單元(7)和數(shù)據(jù)寫入單元(8);
所述分布式調(diào)度框架由客戶端(9)、分布式調(diào)度系統(tǒng)(10)和處理端(11)組成;
所述管理控制臺包括數(shù)據(jù)源管理單元(12)、任務(wù)調(diào)度管理單元(13)、信息統(tǒng)計單元(14)、數(shù)據(jù)校驗單元(15)和故障回退控制單元(16);
具體按照以下步驟實施:
步驟1,系統(tǒng)根據(jù)客戶需求,通過數(shù)據(jù)源管理單元向后臺處理系統(tǒng)發(fā)送數(shù)據(jù)抽取請求,后臺處理系統(tǒng)根據(jù)接收到的數(shù)據(jù)抽取請求后,利用結(jié)構(gòu)化數(shù)據(jù)抽取模塊(1)、非結(jié)構(gòu)化數(shù)據(jù)抽取模塊(2)從結(jié)構(gòu)化數(shù)據(jù)庫或非結(jié)構(gòu)化數(shù)據(jù)庫中抽取數(shù)據(jù),所述數(shù)據(jù)抽取請求包括結(jié)構(gòu)化數(shù)據(jù)抽取請求和非結(jié)構(gòu)化數(shù)據(jù)抽取請求;
步驟2,判斷抽取的數(shù)據(jù)是否為統(tǒng)一的數(shù)據(jù)格式,如果抽取的數(shù)據(jù)是統(tǒng)一的數(shù)據(jù)格式,則執(zhí)行步驟3;如果抽取的數(shù)據(jù)不是統(tǒng)一的數(shù)據(jù)格式,則將抽取的數(shù)據(jù)按照系統(tǒng)需求統(tǒng)一格式后并執(zhí)行步驟3;
步驟3,判斷統(tǒng)一格式后的數(shù)據(jù)是否符合分析要求,如果統(tǒng)一格式后的數(shù)據(jù)符合分析要求,則將統(tǒng)一格式后的數(shù)據(jù)通過數(shù)據(jù)寫入單元存儲到大數(shù)據(jù)存儲與管理系統(tǒng);如果統(tǒng)一格式后的數(shù)據(jù)不符合分析要求,則將統(tǒng)一格式后的數(shù)據(jù)發(fā)送給分布式調(diào)度框架,并執(zhí)行步驟4;
步驟4,分布式調(diào)度框架對統(tǒng)一格式后的數(shù)據(jù)進(jìn)行判斷,并將其發(fā)送給數(shù)據(jù)預(yù)處理模塊進(jìn)行處理;具體按照以下步驟實施:
步驟4.1,分布式調(diào)度框架判斷統(tǒng)一格式后的數(shù)據(jù)是否需要去重,如果有去重需要,則將統(tǒng)一格式后的數(shù)據(jù)發(fā)送給數(shù)據(jù)去重單元對其進(jìn)行去重;如果沒有去重需要,則執(zhí)行步驟4.2;
步驟4.2,分布式調(diào)度框架判斷步驟4.1得到的數(shù)據(jù)是否需要合并,如果有合并需要,則將數(shù)據(jù)進(jìn)行合并,并執(zhí)行步驟4.3;如果沒有合并需要,則執(zhí)行步驟4.3;
步驟4.3,分布式調(diào)度框架將步驟4.2處理得到的數(shù)據(jù)與處理前的數(shù)據(jù)進(jìn)行比較,檢查其是否有錯誤、殘缺和遺漏,如果沒有錯誤、殘缺和遺漏則將步驟4.2處理得到的數(shù)據(jù)存儲到大數(shù)據(jù)存儲與管理系統(tǒng)中;如果有錯誤、殘缺和遺漏,則重新執(zhí)行步驟4.1~步驟4.3;
步驟5,數(shù)據(jù)寫入單元將步驟4中經(jīng)過處理的數(shù)據(jù)存儲到大數(shù)據(jù)存儲與管理系統(tǒng)中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安未來國際信息股份有限公司,未經(jīng)西安未來國際信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410578565.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于大數(shù)據(jù)平臺的網(wǎng)絡(luò)安全實施系統(tǒng)及方法
- 基于事件驅(qū)動的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開發(fā)的系統(tǒng)及方法
- 家用設(shè)備報告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲介質(zhì)
- 一種基于計算機(jī)大數(shù)據(jù)的平臺架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計算機(jī)設(shè)備
- 一種知識產(chǎn)權(quán)大數(shù)據(jù)情報檢索系統(tǒng)
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法
- 一種基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 基于AI的非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 非結(jié)構(gòu)化數(shù)據(jù)處理方法和非結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)
- 業(yè)務(wù)項目的風(fēng)險識別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲方法、裝置、設(shè)備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法





