[發明專利]一種數據庫錯誤數據修復方法有效
| 申請號: | 202010350654.2 | 申請日: | 2020-04-28 |
| 公開(公告)號: | CN111522807B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 侯孟書;楊鍵;查爾斯·羅蘭·哈魯納;羅坤明;董浩;周世杰 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/24;G06F11/14 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據庫 錯誤 數據 修復 方法 | ||
本發明公開了一種數據庫錯誤數據修復方法,首先通過數據庫訪問模塊獲取目標數據庫中的數據表,根據數據表中現有數據建立數據庫表不同屬性列之間的關系模式;然后利用建立好的關系模式通過正確屬性列中的數據從領域知識庫查詢以獲取正確的數據;最后,通過數據庫訪問模塊將正確數據寫回數據庫中。本發明通過建立顯式和隱式的關系模式,通過查詢知識庫以獲取正確的數據,可以在修復的時候結合整個數據庫中不同表的關聯數據在知識庫中進行數據的查找,因此可以有效提高數據庫中無顯式實際意義的外鍵列的錯誤數據修復效率,從而提高整個數據庫錯誤數據的修復效率。
技術領域
本發明涉及數據清洗技術領域,尤其涉及一種數據庫錯誤數據修復方法。
背景技術
錯誤數據修復是一種提高信息系統中數據質量的技術。在現有信息系統數據庫中,存在有部分由于輸入錯誤、對相同實體的不同描述、數據記錄英文縮寫不標準等錯誤數據。這些數據散落在信息系統中,將對上層業務的高效支撐產生影響。
知識庫是一種用于知識管理的特殊數據庫,以便于有關領域知識的采集、整理以及提取。知識庫中的知識源于領域專家,它是特定領域知識的集合,包括基本事實、規則和其它有關信息。利用知識庫中豐富的領域知識信息,可以對數據庫中的錯誤數據進行修復。
目前基于知識庫的錯誤數據修復技術主要針對數據庫單表建立知識庫映射,以單個數據表為單位修復錯誤數據;而針對于整個數據庫,如何解決不同數據表外鍵列的相關依賴對錯誤數據修復的影響,同時利用知識庫的知識檢索能力修復數據,目前尚未提出有效的解決方法。
上述內容僅用于輔助理解本發明的技術方案,并不代表承認上述內容是現有技術。
發明內容
本發明的主要目的在于提供一種數據庫錯誤數據修復方法,旨在解決現有技術中不同數據表外鍵列的相關依賴對錯誤數據修復的影響的技術問題。
為實現上述目的,本發明的第一方面,提供一種數據庫錯誤數據修復方法,所述方法包括如下步驟:訪問數據庫并讀取數據庫中的數據表;根據數據表中的現有數據訪問并查找知識庫中的領域知識;建立數據庫表不同屬性列之間的關系模式;利用建立好的關系模式從領域知識庫中獲取正確數據;將正確數據寫入數據庫。
進一步的,所述建立數據庫表不同屬性列之間的關系模式包括顯式關系模式的建立:取數據表中任意列C與其它任意表中任意列C’在知識庫中匹配關聯關系,根據關聯關系建立關系模式,所述關系模式中的頂點為數據庫的屬性列,所述關系模式中的邊是知識庫中對數據庫屬性列對應實體的關系。
進一步的,所述建立數據庫表不同屬性列之間的關系模式還包括隱式關系模式的建立:在現有關系模式中,選取數據表中所有表屬性列節點對應的度最大的節點A與其余數據表中度最大的節點B,在知識庫中匹配節點A與節點B存在的關聯關系,取節點B所在表中列值數量最高的列節點F,在節點A與節點B存在關聯關系,且列節點F的值等于C的值時建立編碼關系。
進一步的,所述隱式關系模式的建立過程中,若在知識庫中節點A與節點B不存在關聯關系,則將數據表中度次大的節點作為節點A,并重新判斷節點A與節點B的關聯關系。
進一步的,所述隱式關系模式的建立過程中,若節點A與節點B的存在關聯關系,但列節點F的值與節點C的值不相等時,將列值不重復數量次高的節點作為節點F,并重新判斷節點F與節點C的值是否相等。
進一步的,所述利用建立好的關系模式從領域知識庫中獲取正確數據為:計算每個表所有節點的度數和,找到度數最小的表,在關系模式中匹配錯誤數據D對應的邊,若錯誤數據D對應的邊是未編碼的關系,在所有相關列的基礎上,通過現有數據和關聯關系從知識庫中查詢正確數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010350654.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





