[發明專利]用于在查詢時間清洗基于序列的數據的方法和系統有效
| 申請號: | 200710169255.0 | 申請日: | 2007-11-07 |
| 公開(公告)號: | CN101183378A | 公開(公告)日: | 2008-05-21 |
| 發明(設計)人: | 饒軍;L·S·柯比;S·T·多雷斯瓦米;H·塔卡 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市中咨律師事務所 | 代理人: | 于靜;李崢 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 查詢 時間 清洗 基于 序列 數據 方法 系統 | ||
技術領域
本發明涉及一種用于在查詢時間清洗(cleansing)基于序列的數據(sequence-based?data)的系統和方法。
背景技術
諸如射頻識別數據(RFID)之類的基于序列的數據正被配置于包括供應鏈優化、業務過程自動化、資產跟蹤,以及問題追蹤能力應用在內的應用領域中。基于序列的數據讀(sequence-based?data?reads)存在異常(anomaly)起因于諸如重復讀(duplicate?reads)、漏讀(missed?reads)和交叉讀(cross?reads)的很多不同的來源。異常還可以發生在邏輯或業務過程級。在分析結果中,RFID讀中的少量異常可能轉換成大的錯誤。常規的“急切(eager)”數據清洗方法試圖在最前面移除所有的異常,在數據庫中僅存儲清洗后的數據,并且然后在清洗后的數據上應用查詢。對于在最前面移除異常的該嘗試發生在,例如,將清洗后的數據加載到數據倉庫中的抽取-變換-加載(Extract-Trnasform-Load,ETL)過程期間。然而,在最前面移除所有這樣的異常并不總是可能的。一個原因在于清洗所需要的規則和業務上下文可能在數據加載時間不可用。例如,可能并不知道存在循環以及它們是否會影響任何分析,直到用戶于一段時間之后在查詢結果中觀察到不規則。結果,應用可能不斷地發展現有的異常定義并且添加新的異常定義。進一步地,用于校正數據異常的規則經常是專用的(即,幾個應用在相同的數據集上有差別地定義異常和校正)。例如,第一應用查詢跟蹤存架空間規劃(shelf?space?planning)或勞動生產率要求關于存儲器內所有循環的知識,而對產品項目在每個位置已經呆了多久進行計算的第二應用需要移除循環中除了最初和最后的讀之外的一切。更進一步,對于特定的應用(例如,藥品電子譜系跟蹤(pharmaceutical?e-pedigreetracking))來說,法律要求保留跟蹤信息,由此排除了在最前面的數據清洗。此外,當不同的應用要求規定了動態變化的規則集合時,維護和修改多個清洗后的版本在物理上是禁止的。因而,需要克服相關領域的前述不足和限制中的至少一個。
發明內容
在第一實施例中,本發明提供了一種在查詢時間從基于序列的數據中清洗異常的計算機實現的方法,其包括:
將基于序列的數據加載到由計算系統的數據庫管理系統(DBMS)所管理的數據庫中,所述加載是在先于所述基于序列的數據的查詢時間的、所述基于序列的數據的加載時間進行的;
在所述計算系統的清洗規則引擎處接收清洗規則;
通過所述清洗規則引擎,將所述清洗規則自動轉換成模板,所述模板包括對所述基于序列的數據中的一個或多個異常進行補償的邏輯;
在所述查詢時間并且通過所述計算系統的查詢重寫引擎,接收檢索所述基于序列的數據的用戶查詢;
在所述查詢時間并且通過所述查詢重寫引擎,自動重寫所述用戶查詢以提供重寫的查詢,所述自動重寫包括:應用包括在所述模板中的所述邏輯來補償所述一個或多個異常;以及
在所述查詢時間,通過所述DBMS執行所述重寫的查詢,其中,通過執行所述重寫的查詢所提供的應答與在通過將所述清洗規則應用于所有的所述基于序列的數據而生成的數據集上執行所述用戶查詢的結果一樣。
在第二實施例中,本發明提供了一種通過相對于多個清洗規則重寫查詢而在查詢時間從基于序列的數據中清洗異常的計算機實現的方法,其包括:
將基于序列的數據加載到由計算系統的數據庫管理系統(DBMS)所管理的數據庫中,所述基于序列的數據包括一個或多個異常;
在所述計算系統的清洗規則引擎處接收多個清洗規則C1,…,Cn;
通過所述計算系統的查詢重寫引擎,接收檢索所述基于序列的數據的用戶查詢Q;
通過所述查詢重寫引擎自動重寫所述用戶查詢以提供重寫的查詢;
通過所述DBMS執行所述重寫的查詢,所述執行包括:從所述基于序列的數據生成清洗后的數據,所述清洗后的數據不包括所述一個或多個異常,
其中所述自動重寫包括:
對于所述多個清洗規則C1,…,Cn中的每個清洗規則Ci,進行第一循環,其包括:
對于關系表R上包括在清洗規則Ci的模式中的一個或多個上下文參考(context?reference)中的每個上下文參考X,進行第二循環,其包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710169255.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:乙醇酸的制造方法
- 下一篇:用于移動通信終端的改良的圖形用戶接口





