[發(fā)明專利]一種基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法在審
| 申請?zhí)枺?/td> | 201510281346.8 | 申請日: | 2015-05-28 |
| 公開(公告)號: | CN104933098A | 公開(公告)日: | 2015-09-23 |
| 發(fā)明(設計)人: | 武斌;徐宏偉;鄒建軍 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 消除 重復 記錄 數(shù)據(jù) 清洗 平臺 設計 方法 | ||
技術領域
本發(fā)明涉及數(shù)據(jù)清洗技術領域,具體地說是實用性強、基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法。
背景技術
隨著信息技術的快速發(fā)展,各個領域都在每時每刻以驚人的速度產(chǎn)生出各式各樣的規(guī)模巨大的數(shù)據(jù)信息,人類也在工作生活的方方面面接觸到越來越多的數(shù)據(jù)信息。然而,人類對數(shù)據(jù)信息理解的匱乏與數(shù)據(jù)爆炸的趨勢顯得并不對稱,人類在努力將數(shù)據(jù)信息轉化為有利信息知識的同時,也面臨著大數(shù)據(jù)之中夾雜的“臟數(shù)據(jù)”的挑戰(zhàn),對原始數(shù)據(jù)源的清洗,將其轉化為可被理解利用的目標數(shù)據(jù)源,成為了人類理解數(shù)據(jù)過程中尤為重要的一步。
“臟數(shù)據(jù)”會對建立的數(shù)據(jù)倉庫系統(tǒng)造成不良影響,扭曲從數(shù)據(jù)中獲得的信息,影響數(shù)據(jù)倉庫的運行效果,進一步影響數(shù)據(jù)挖掘效能,最終影響決策管理。因此,為了使數(shù)據(jù)倉庫系統(tǒng)中的記錄更準確、一致,消除重復數(shù)據(jù)就變得很重要,所以數(shù)據(jù)預處理工作是相當必要的。數(shù)據(jù)清洗作為數(shù)據(jù)預處理的一個重要環(huán)節(jié),在數(shù)據(jù)倉庫構建過程中占據(jù)重要位置。
數(shù)據(jù)清洗:如填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等,主要是通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用現(xiàn)有的數(shù)據(jù)挖掘手段和方法去清洗“臟數(shù)據(jù)”,將“臟數(shù)據(jù)”轉化為滿足數(shù)據(jù)質(zhì)量要求或應用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的質(zhì)量,滿足現(xiàn)階段數(shù)據(jù)分析的需求。
基于此,現(xiàn)提供一種可解決上述問題、基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法。該方法通過設計獨立的運行消除重復數(shù)據(jù)組件,從而使得清洗平臺具有獨立的操作語義和元數(shù)據(jù)描述,包括了數(shù)據(jù)清洗流程中的所有操作方式,如數(shù)據(jù)檢驗、數(shù)據(jù)轉換、數(shù)據(jù)處理、流程控制等等。從而降低整個數(shù)據(jù)清洗的成本,提高數(shù)據(jù)清洗的工作效率,而且能消除簡單的重復勞動過程,提高生產(chǎn)率。
發(fā)明內(nèi)容
本發(fā)明的技術任務是針對以上不足之處,提供一種實用性強、基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法。
一種基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法,其具體實現(xiàn)過程為:
創(chuàng)建消除重復記錄組件元數(shù)據(jù)類,
創(chuàng)建消除重復記錄組件元數(shù)據(jù)界面類;
創(chuàng)建消除重復記錄組件元數(shù)據(jù)控制類;
元數(shù)據(jù)類內(nèi)聚元數(shù)據(jù)界面類、元數(shù)據(jù)控制類,負責對兩個類進行初始化;
配置元數(shù)據(jù)類的基本信息,該基本信息包括名稱、XML?標簽和類型編號;
將元數(shù)據(jù)類、元數(shù)據(jù)界面類和元數(shù)據(jù)控制類放入一個文件夾中,同時將該文件夾放置在設計器的文件夾中;
修改設計器的配置文件,增加相關組件模型的信息,該信息包括類名、包名、圖標文件路徑;
從設計器組件中拖取去除重復記錄組件模型,將需要處理的數(shù)據(jù)作為輸入,組件在除去重復記錄后,進行數(shù)據(jù)更新;
監(jiān)控端接收數(shù)據(jù)后,將其分配至一個執(zhí)行引擎中運行;
執(zhí)行引擎反饋執(zhí)行結果。
所述元數(shù)據(jù)類實現(xiàn)核心方法,方法的實現(xiàn)思路為:
首先獲取輸入數(shù)據(jù)行的字段名和值;
然后生成Object列表,并遍歷輸入數(shù)據(jù)的數(shù)據(jù)項;
將第一個數(shù)據(jù)項放入列表,再將剩下的數(shù)據(jù)項與列表中的數(shù)據(jù)項的值進行比較:如果數(shù)據(jù)項中字段的值與列表中數(shù)據(jù)項的值一樣,則判斷為重復數(shù)據(jù),將不存儲至列表中,否則就作為不重復的數(shù)據(jù)存入列表中;
遍歷完后,最后將列表中的數(shù)據(jù)作為輸出數(shù)據(jù)。
所述元數(shù)據(jù)界面類繼承自BaseStepDialog類,實現(xiàn)了showDialog方法,負責呈現(xiàn)模型組件的界面,是模型組件與用戶進行數(shù)據(jù)交互的接口。
所述元數(shù)據(jù)控制類,繼承自BaseStepMgr?類,實現(xiàn)了BaseStepMgr?中的方法,用以控制界面的調(diào)用和數(shù)據(jù)的輸出。
本發(fā)明的一種基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法,具有以下優(yōu)點:
該發(fā)明的一種基于消除重復記錄的數(shù)據(jù)清洗平臺設計方法通過設計重復數(shù)據(jù)消除組件,使得整個數(shù)據(jù)清洗平臺具有以下特點:開發(fā)效率高、運行可靠性高,開發(fā)成本低,靈活性高,可復用性高,良好的擴展性等。可以最大化的滿足目前的數(shù)據(jù)清洗需求,同時減少了軟件開發(fā)的難度,減少了開發(fā)人員的重復勞動;實用性強,適用范圍廣泛,易于推廣。
附圖說明
附圖1為本發(fā)明的實現(xiàn)流程圖。
具體實施方式
下面結合附圖和具體實施例對本發(fā)明作進一步說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經(jīng)浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510281346.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





