[發明專利]一種基于關系數據的數據處理方法及其裝置在審
| 申請號: | 202210648304.3 | 申請日: | 2022-06-09 |
| 公開(公告)號: | CN115033650A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 謝珉;王堯舒;樊文飛 | 申請(專利權)人: | 深圳計算科學研究院 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2458;G06F16/242;G06N20/00 |
| 代理公司: | 深圳市智勝聯合知識產權代理有限公司 44368 | 代理人: | 王月 |
| 地址: | 518000 廣東省深圳市龍*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關系 數據 數據處理 方法 及其 裝置 | ||
本申請提供了一種基于關系數據的數據處理方法及其裝置,用于通過數據關系修復缺失數據段的目標數據,并驗證修復后的目標數據的有效性,所述方法包括:獲取目標數據,并依據所述目標數據的詞義進行數據篩選確定采樣數據;依據所述采樣數據生成模板謂詞,并依據所述模板謂詞構建目標模板;依據所述常數謂詞對所述目標數據進行數據篩選構建謂詞總集;依據所述謂詞總集進行關聯規則挖掘生成候選規則總集;依據所述目標數據確定所述候選規則總集內的有效規則,并依據所述有效規則確定有效數據。使得在大規模關系數據中進行帶常數的規則發現時,不需要枚舉所有可能的常數,也能發現有效地帶常數的規則,從而大大提高了規則發現的執行效率。
技術領域
本申請涉及數據處理領域,特別是一種基于關系數據的數據處理方法及其裝置。
背景技術
在大規模的關系數據中進行規則發現是一個費時費力的過程。當規則中允許使用常數時,規則發現的代價更是以指數級別的復雜度上升。
比如,考慮以下一個簡單的條件函數依賴(Conditional FunctionalDependency,簡稱CFD):
地址=“廣東省深圳市”-郵編=“518000”
這個CFD描述的場景是,如果一個地址屬性是在廣東省深圳市的話,那么它對應的郵編屬性一定是518000。這種規則可被廣泛地運用于關系數據中的查錯和糾錯。具體來說,當關系數據中存儲的數據違反了這個規則(即一個地址屬性是在廣東省深圳市,但是它的郵編屬性不是518000),那么可以得知數據中存在錯誤,可以進一步地進行數據糾正。在這個規則中,“廣東省深圳市”和“518000”都是常數,地址和郵編是數據的屬性名。
如果在大規模數據中進行帶常數的規則發現,不僅需要考慮不同的數據屬性間的排列組合,還需要考慮每個屬性可能匹配的常數。這個枚舉過程的代價是非常昂貴的。比如下面幾個CFD:
地址=“廣東省廣州市”-郵編=“510000”
地址=“廣東省東莞市”-郵編=“523000”
地址=“廣東省佛山市”-郵編=“528010”
這幾個CFD描述的場景都是類似的,區別只在于使用了不同的常數。雖然規則的屬性(即地址和郵編)都相同,但是匹配的常數不同。如果需要在數據中枚舉所有可能匹配的常數,毫無疑問地,會使規則發現的效率大大降低。可能需要幾天甚至幾周,在一個普通大小的關系數據中進行規則發現。
CFD規則局限的表達能力使其在實際場景中適用性受限。為了能支持常數謂詞,CFD規則挖掘需要枚舉所有可能屬性和常數的組合,因此費時費力。
發明內容
鑒于所述問題,提出了本申請以便提供克服所述問題或者至少部分地解決所述問題的一種基于關系數據的數據處理方法及其裝置,包括:
一種基于關系數據的數據處理方法,所述方法用于通過數據關系修復缺失數據段的目標數據,并驗證修復后的目標數據的有效性,包括:
獲取目標數據,并依據所述目標數據的詞義進行數據篩選確定采樣數據,其中,所述采樣數據為常數謂詞,且至少包括一個;
依據所述采樣數據生成模板謂詞,并依據所述模板謂詞構建目標模板;
依據所述常數謂詞對所述目標數據進行數據篩選構建謂詞總集;
依據所述謂詞總集進行關聯規則挖掘生成候選規則總集;
依據所述目標數據確定所述候選規則總集內的有效規則,并依據所述有效規則確定有效數據。
進一步地,所述獲取目標數據,并依據所述目標數據的詞義進行數據篩選確定采樣數據,其中,所述采樣數據為常數謂詞,且至少包括一個的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳計算科學研究院,未經深圳計算科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210648304.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





