[發明專利]一種基于數據庫歷史快照的無效數據清理方法有效
| 申請號: | 202211031439.1 | 申請日: | 2022-08-26 |
| 公開(公告)號: | CN115422175B | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 林韶賓;婁帥;鄭紅云;黨中華;張文鳳;司同;龍禹;王佳明;林禹 | 申請(專利權)人: | 北京萬里開源軟件有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/242 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 陳姣姣 |
| 地址: | 100000 北京市豐臺區汽車博物*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據庫 歷史 快照 無效 數據 清理 方法 | ||
本發明提供了一種基于數據庫歷史快照的無效數據清理方法,包括:采集分布式系統的源數據庫中的全部數據庫歷史快照;對采集到的全部分布式數據庫歷史快照進行數據解析,得到第一數據表集合;獲取待清理分布式數據庫中的未識別數據,得到第二數據表集合,在第二數據表集合中按序選擇第二數據表,若當前選擇的第二數據表在第一數據表集合中不存在時,對當前選擇的第二數據表進行刪除,直至在第二數據表集合中的所有第二數據表均在第一數據表集合中存在時結束。
技術領域
本發明涉及數據庫數據處理技術領域,尤其涉及一種基于數據庫歷史快照的無效數據清理方法。
背景技術
隨著互聯網技術的發展,很多行業都已經進入了海量數據時代,當前涉及到大數據的技術大多集中在數據的挖掘和利用上。大數據的挖掘必然以存在大量的數據為前提,但數據量過大顯然也會對挖掘和利用帶來不小的困難。在當代信息爆炸的背景下,數據量急劇增加的同時也伴隨著數據的快速更新,換言之,在掌握最新數據的同時,還必須及時的清理過時或失效的數據。否則,不僅會使數據量過于龐大導致數據挖掘的難度大幅增加,更重要的是有可能直接導致數據分析的錯誤。目前在清理失效數據時,常用的做法是在數據庫中根據失效條件或時間條件數據庫中直接查找失效數據并進行清理,這樣的做法將會導致在查找過程中出現大量工作量,而大量工作量將會導致容錯率降低,從而影響失效數據清理過程,因此,亟需一種基于數據庫歷史快照的無效數據清理方法,用于通過數據庫歷史快照的方式,快速識別出數據庫中的無效數據并進行清理,從而有效降低了根據失效條件或時間條件在數據庫中直接查找失效數據的工作量。
發明內容
針對現有技術的不足,本發明提供一種基于數據庫歷史快照的無效數據清理方法,用于通過數據庫歷史快照的方式,快速識別出數據庫中的無效數據并進行清理,從而有效降低了根據失效條件或時間條件在數據庫中直接查找失效數據的工作量。
一種基于數據庫歷史快照的無效數據清理方法,包括:
采集源數據庫中的全部數據庫歷史快照;對采集到的全部數據庫歷史快照進行數據解析,得到第一數據表集合;獲取待清理數據庫中的未識別數據,得到第二數據表集合,在第二數據表集合中按序選擇第二數據表,若當前選擇的第二數據表在第一數據表集合中不存在時,對當前選擇的第二數據表進行刪除,直至在第二數據表集合中的所有第二數據表均在第一數據表集合中存在時結束。
作為本發明的一種實施例,對采集到的全部數據庫歷史快照進行數據解析,得到第一數據表集合,包括:對采集到的全部數據庫歷史快照進行數據解析,得到每一數據庫歷史快照對應的文件信息以及文件信息對應的路徑信息;根據文件信息以及文件信息對應的路徑信息生成每一數據庫歷史快照對應的數據表;整合所有數據庫歷史快照對應的數據表,得到第一數據表集合。
作為本發明的一種實施例,獲取待清理數據庫中的未識別數據,得到第二數據表集合,包括:獲取源數據庫中所有被標記為未識別數據的數據表,建立待清理數據庫;整合待清理數據庫中被標記為未識別數據的數據表,得到第二數據表集合。
作為本發明的一種實施例,獲取源數據庫中所有被標記為未識別數據的數據表,包括:獲取源數據庫中的所有待識別數據表;分別采集每一待識別數據表預設時間內的讀取時間數據和數據表讀取對象數據;根據待識別數據表的讀取時間數據確定對應待識別數據表的活躍度;根據待識別數據表的數據表讀取對象數據確定對應待識別數據表的重要度;根據每一待識別數據表的活躍度和重要度進行數據有效值分析,得到每一待識別數據表的數據有效值;若當前待識別數據表的數據有效值小于預設數據有效值閾值,將當前待識別數據表進行未識別數據標記。
作為本發明的一種實施例,獲取源數據庫中的所有待識別數據表,包括:獲取用戶輸入的標識指令語句,對標識指令語句進行解析得到有效數據標識信息;其中,標識指令語句為用戶基于其預先設定的有效數據標識信息結合對應的結構化查詢語言SQL命令生成的相應SQL語句;在源數據庫的可見數據中查詢與有效數據標識信息無法匹配的數據表,得到源數據庫中的所有待識別數據表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京萬里開源軟件有限公司,未經北京萬里開源軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211031439.1/2.html,轉載請聲明來源鉆瓜專利網。





