[發明專利]一種預處理增強的大數據處理系統及方法在審
| 申請號: | 201911373572.3 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111143367A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 黃玉劃;郭柯卿;藍天;王娜 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/25;G06F16/953 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 預處理 增強 數據處理系統 方法 | ||
1.一種預處理增強的大數據處理系統,包括采集模塊、其特征在于所述采集模塊的輸出端與輸入模塊的輸入端單向信號連接、所述輸入模塊的輸出端與預處理模塊的輸入端單向信號連接、所述預處理模塊的輸出端與分析模塊的輸入端單向信號連接、所述分析模塊的輸出端與輸出模塊的輸入端單向信號連接以及所述輸出模塊的輸出端與存儲模塊的輸入端單向信號連接。
2.根據權利要求1所述的一種預處理增強的大數據處理系統,對此提出一種大數據處理方法,其特征在于,步驟如下:
S1:采集模塊進行主動搜集所需的元數據,例如客戶端數據、數據庫數據、服務器數據或者第三方數據等等,進行打包傳送至輸入模塊中;
S2:根據S1中采集模塊將數據打包傳送至輸入模塊后,輸入模塊進行主動將數據發送至預處理模塊進行預處理,傳輸過程根據數據的類型來選擇傳輸方式,當數據是流式數據時,將采用Kafka、storm等框架;而當數據是批式數據時,將采用MapReduce批處理模型;
S3:根據S2中預處理模塊在收到元數據后,將數據進行解析、解碼、填充和糾錯等一系列程序,將數據預處理;
解析:接收到來自輸入模塊的數據時,先運行解析腳本,將傳過來的數據轉換成XML或者JSON格式數據,再進行業務處理;平臺下發數據時,也會先通過腳本將數據轉換為模塊可以接收的數據格式,再下發給下層模塊;
解碼:在計算機網絡中,需要通過網絡實現資源共享和數據傳輸,因此當鏈接的雙方信號形式不一樣,例如當使用的通信網信號形式和傳輸模塊的信號形式不一樣時,就必須進行信號形式的轉換,接收方進行的信號形式的轉換就是解碼;
填充:在處理數據時,很多時候都會遇到數據缺失值的情況,面對數據缺失值,簡單的方法可以是在連續型變量中填充中位數、平均數等,在離散型變量中填充眾數,其次我們可以考慮采用深度學習的方法例如K-means插值、混合高斯分布插值等來填充數據;
糾錯:錄入數據時,有差錯是難免的,隨著時間的推移、工作的突進,數據需要補充和修正,數據的完整、準確是動態的,要保持基礎數據的正確,關鍵是要建立盡快糾正錯誤數據的機制,即審核-糾正-反饋;
S4:根據S3中將數據進行一系列預處理后,將處理后的數據發送至分析模塊進行分析,將有利的數據進行篩選而后傳輸至輸出模塊;
S5:根據S1、S2、S3和S4中將數據進行采集、輸入、預處理和分析后傳輸至輸出模塊,輸出模塊將數據主動傳輸至存儲模塊進行儲存,若數據格式為文檔型,則選用MongoDB文檔型數據庫;而若數據是結構化的,則采用關系型數據庫存儲;當數據達到很大規模時,將首選HDFS存儲。
3.根據權利要求1所述的一種預處理增強的大數據處理系統及方法,其特征在于所述預處理模塊分為四個部分,分別為解析、解碼、填充和糾錯。
4.根據權利要求1所述的一種預處理增強的大數據處理系統及方法,其特征在于所述預處理模塊用于接收大數據采集模塊采集的用戶行為大數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911373572.3/1.html,轉載請聲明來源鉆瓜專利網。





