[發明專利]基于全文數據庫的數據清洗方法、裝置、設備和存儲介質在審
| 申請號: | 202010130614.7 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN113326253A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 王洪波;余江;張三海;林東嶠;崔哲敏 | 申請(專利權)人: | 拓爾思天行網安信息技術有限責任公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 北京志霖恒遠知識產權代理事務所(普通合伙) 11435 | 代理人: | 郭棟梁 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 全文數據庫 數據 清洗 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種基于全文數據庫的數據清洗方法、裝置、設備和存儲介質,該方法包括根據預設規則從多個不同業務系統中抽取源數據;根據預先設置的編碼表和字段名命名規則,分別翻譯源數據,并修改源數據中的字段名;對經過翻譯和修改字段名之后的源數據進行分級標引,生成成品數據并保存至全文數據庫。本申請實施例能夠將不同業務系統中的數據統一抽取、加工,并生成成品數據保存至全文數據庫,同時將相關數據加工處理到同一條記錄中,保證了數據的完整性,彌補了全文數據庫不能關聯查詢的缺陷。
技術領域
本發明一般涉及數據處理技術領域,具體涉及一種基于全文數據庫的數據清洗方法、裝置、設備和存儲介質。
背景技術
現代社會中,信息化系統已經成為企業維持業務運轉的關鍵。企業多樣化的業務類型導致數據訪問需求日趨復雜,并且數據量的急劇增加也使得數據庫服務端不堪重負。因此,需要建立數據中心以提高信息系統的可用性和訪問查詢效率。
考慮到信息系統的差異,在建立數據中心的過程中,經常需要對來自各個業務系統的源數據進行清洗整合。然而,由于數據源過多會造成配置工作較為繁瑣,每一類數據都需要配置一個數據清理流程,這就會造成數據中心服務端執行壓力大,并且效率低。
發明內容
鑒于現有技術中的上述缺陷或不足,期望提供一種基于全文數據庫的數據清洗方法、裝置、設備和存儲介質,能夠將不同業務系統中的數據統一抽取、加工,并生成成品數據保存至全文數據庫,同時將相關數據加工處理到同一條記錄中,保證數據的完整性,彌補全文數據庫不能關聯查詢的缺陷。
第一方面,本申請提供一種基于全文數據庫的數據清洗方法,所述方法包括:
根據預設規則從多個不同業務系統中抽取源數據;
根據預先設置的編碼表和字段名命名規則,分別翻譯所述源數據,并修改所述源數據中的字段名;
對經過翻譯和修改字段名之后的所述源數據進行分級標引,生成成品數據并保存至全文數據庫。
可選地,所述預設規則包括時間戳范圍和/或分區字段。
可選地,所述源數據中的字段名包括單值、多值或多字母組合。
可選地,所述根據預先設置的編碼表,分別翻譯所述源數據,還包括:
當所述源數據中的字段名為單值,且多個字段名的編碼存放于同一張所述編碼表中時,所述編碼表包括所述單值對應的編碼、解釋和編碼類型。
可選地,所述根據預先設置的編碼表,分別翻譯所述源數據,還包括:
當所述源數據中的字段名為多值時,利用預設符號對所述多值進行分隔,所述編碼表包括經過分隔的所述多值分別對應的編碼和解釋。
可選地,所述對經過翻譯和修改字段名之后的所述源數據進行分級標引,包括:
根據人口的身份證號和姓名,添加所述人口對應的基本信息至人員表,并利用所述人員表和行為表關聯的外鍵,對背景名稱、背景內容、背景次數和背景有效性進行補充合并。
可選地,所述對經過翻譯和修改字段名之后的所述源數據進行分級標引,包括:
根據人員表和行為表關聯的外鍵,補充人口的姓名和身份證號,并根據所述姓名和身份證號,添加所述人口的基本信息至所述行為表。
第二方面,本申請提供一種基于全文數據庫的數據清洗裝置,所述裝置包括:
抽取模塊,配置用于根據預設規則從多個不同業務系統中抽取源數據;
翻譯模塊,配置用于根據預先設置的編碼表和字段名命名規則,分別翻譯所述源數據,并修改所述源數據中的字段名;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于拓爾思天行網安信息技術有限責任公司,未經拓爾思天行網安信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010130614.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





