[發明專利]一種基于自然語言的可視化數據清洗系統及方法在審
| 申請號: | 202011617367.X | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112667617A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 尹源 | 申請(專利權)人: | 南京誠勤教育科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/242;G06F16/26 |
| 代理公司: | 北京中建聯合知識產權代理事務所(普通合伙) 11004 | 代理人: | 王曉艷 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 可視化 數據 清洗 系統 方法 | ||
本發明涉及數據處理技術領域,具體涉及一種基于自然語言的可視化數據清洗系統及方法,本發明通過服務器指定需要清洗的數據源相關連接信息;獲取待清洗數據的前N條,并解析其字段類型和格式去除無用字段;設置清洗模塊,并選擇觸發數據同步和清洗任務;將清洗模塊的清洗規則反向解析為數據清洗腳本,并對數據執行該情形腳本,將清洗后的數據傳入分析庫,重復執行直至所有數據清洗完畢,完成清洗。本發明實現對數據的清洗,無需掌握數據清洗工具的開發和使用方法,降低了大數據應用服務的技術門檻,提升了用戶對大數據服務的體驗,解決了傳統的數據清洗系統的靈活性及可維護性問題,使的數據清洗工作人員的使用成本得到降低,效率得到提升。
技術領域
本發明涉及數據處理技術領域,具體涉及一種基于自然語言的可視化數據清洗系統及方法。
背景技術
近年來隨著大數據技術的發展,為原來海量的日志、上網記錄、歷史數據等提供了新的分析技術手段,通過分析這些海量數據能夠發現很多平時發現不到的有價值信息,要做大數據分析,第一步就是要把分散在各處的數據采集上來,進行清洗,清洗好的數據進行入庫。這個過程又叫ETL,涉及extract數據抽取、Transformation數據轉換、Load數據裝載三個步驟。
過去數據清洗的手段針對不同的數據源需要采用不同的清洗工具,不同數據源的清洗均需要編寫不同的程序和腳本,這些清洗手段要求用戶掌握多種清洗工具的使用方法,具備較高的清洗工具的開發能力;導致數據清洗系統使用門檻高(需要學習針對數據源或清洗工具的相關專業知識),且數據清洗流程的維護成本高。
在專利號為CN201710011044.8的發明文件中,公開了一種數據清洗方法及數據清洗裝置,該數據清洗方法包括:獲取待清洗的原始樣本數據;確定對所述原始樣本數據進行清洗的至少一種數據篩選機制,并獲取用戶根據所述原始樣本數據對每種所述數據篩選機制設定的篩選值;根據所述至少一種數據篩選機制和用戶設定的所述篩選值對所述原始樣本數據進行篩選,以對所述原始樣本數據進行清洗。本發明的技術方案能夠實現對原始樣本數據的全面清洗,并且能夠降低數據清洗過程對操作人員的依賴,確保數據清洗結果的準確性與穩定性,同時也能夠有效縮短數據清洗的時長。
在專利號為CN201810143012的發明文件中,公開一種數據清洗方法和數據清洗系統。該數據清洗方法包括:步驟S10:通過圖形化界面從異構數據源中選定待清洗的數據源;其中,異構數據源包括文本文件和數據庫數據;步驟S11:通過圖形化界面編輯數據清洗規則;步驟S12:通過圖形化界面執行數據清洗。該數據清洗方法通過圖形化界面從異構數據源中選定待清洗的數據源,能夠實現對不同數據源的融合清洗,同時,用戶通過在圖形化界面上簡單操作即可實現對數據的清洗,無需掌握數據清洗工具的開發和使用方法,降低了大數據應用服務的技術門檻,提升了用戶對大數據服務的體驗。
綜上,傳統數據清洗系統多采用腳本編寫,配置文件或控件拖曳式方式,實現簡單,但學習和維護成本都較高,靈活度偏低。
發明內容
針對現有技術的不足,本發明公開了一種基于自然語言的可視化數據清洗系統及方法,用于解決傳統數據清洗系統多采用腳本編寫,配置文件或控件拖曳式方式,實現簡單,但學習和維護成本都較高,靈活度偏低的問題。
本發明通過以下技術方案予以實現:
第一方面,本發明公開了一種基于自然語言的可視化數據清洗方法,包括以下步驟:
S1系統初始化成功,通過服務器指定需要清洗的數據源相關連接信息;
S2數據源連接成功后,獲取待清洗數據的前N條,并解析其字段類型和格式;
S3通過圖形界面確認需要接入的數據字段,進行第一輪篩選,去除無用字段;
S4進入自然語言清洗配置,設置清洗模塊,并選擇觸發數據同步和清洗任務;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京誠勤教育科技有限公司,未經南京誠勤教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011617367.X/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





