[發明專利]用于在查詢時間清洗基于序列的數據的方法和系統有效
| 申請號: | 200710169255.0 | 申請日: | 2007-11-07 |
| 公開(公告)號: | CN101183378A | 公開(公告)日: | 2008-05-21 |
| 發明(設計)人: | 饒軍;L·S·柯比;S·T·多雷斯瓦米;H·塔卡 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市中咨律師事務所 | 代理人: | 于靜;李崢 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 查詢 時間 清洗 基于 序列 數據 方法 系統 | ||
1.一種在查詢時間從基于序列的數據中清洗異常的計算機實現的方法,其包括:
將基于序列的數據加載到由計算系統的數據庫管理系統所管理的數據庫中,所述加載是在先于所述基于序列的數據的查詢時間的、所述基于序列的數據的加載時間進行的;
在所述計算系統的清洗規則引擎處接收清洗規則;
通過所述清洗規則引擎,將所述清洗規則自動轉換成模板,所述模板包括對所述基于序列的數據中的一個或多個異常進行補償的邏輯;
在所述查詢時間并且通過所述計算系統的查詢重寫引擎,接收檢索所述基于序列的數據的用戶查詢;
在所述查詢時間并且通過所述查詢重寫引擎,自動重寫所述用戶查詢以提供重寫的查詢,所述自動重寫包括:應用包括在所述模板中的所述邏輯來補償所述一個或多個異常;以及
在所述查詢時間,通過所述數據庫管理系統執行所述重寫的查詢,其中,通過所述執行所述重寫的查詢所提供的應答與在通過將所述清洗規則應用于所有的所述基于序列的數據而生成的數據集上執行所述用戶查詢的結果一樣。
2.根據權利要求1的方法,其中所述自動轉換所述清洗規則包括:
在大小為一的窗口上將兩個單元素中的單元素轉換成一個或多個標量聚合,其中所述兩個單元素是所述清洗規則的條件所引用的所述基于序列的數據中的兩行,其中根據所述兩個單元素的相對序列位置來定義所述窗口,并且其中在SQL/OLAP中指定所述一個或多個標量聚合以及所述窗口。
3.根據權利要求1的方法,其中所述自動轉換所述清洗規則包括:
在SQL/OLAP中定義窗口以便包括所述基于序列的數據的行的集合,所述行的集合被所述清洗規則的條件引用;以及
在所述窗口上將所述條件轉換成SQL/OLAP中的case表達式,
其中所述條件引用單元素和所述行的集合。
4.根據權利要求1的方法,其中所述自動轉換所述清洗規則包括以下之一:
如果所述清洗規則的動作是刪除動作或保留動作,則將所述動作實現為SQL/OLAP中的過濾條件,其中所述刪除動作移除所述基于序列的數據中的一行或多行,并且所述保留動作保留所述基于序列的數據中的一行或多行;以及
如果所述清洗規則的所述動作是修改動作,則將所述動作轉換成SQL/OLAP中的case表達式,其中所述修改動作修改所述基于序列的數據的一行或多行。
5.根據權利要求4的方法,其中所述自動轉換所述清洗規則包括所述將所述動作實現為所述過濾條件,其中如果所述動作是所述保留動作,則直接利用所述清洗規則的規則條件作為所述過濾條件,并且其中,如果所述動作是所述刪除動作,則利用所述規則條件的取反作為所述過濾條件。
6.根據權利要求1的方法,其中所述自動重寫進一步包括:
進行擴展重寫算法和join-back算法中的至少一個以便生成所述重寫的查詢,所述進行包括:
將所述基于序列的數據減少成所述基于序列的數據的子集,通過對清洗后的數據的生成來使用所述子集,以及
在所述減少之后,在所述清洗后的數據上執行包括在所述用戶查詢中的邏輯,
其中所述將所述基于序列的數據減少成所述子集以及所述執行包括在所述用戶查詢中的所述邏輯提供了這樣的保證,即:通過所述執行所述重寫的查詢所提供的所述應答與所述在通過所述將所述清洗規則應用于所有的所述基于序列的數據而生成的所述數據集上執行所述用戶查詢的所述結果一樣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710169255.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:乙醇酸的制造方法
- 下一篇:用于移動通信終端的改良的圖形用戶接口





