[發明專利]用于檢測數據源中的偏差的方法、設備和計算機程序有效
| 申請號: | 201380057211.2 | 申請日: | 2013-09-05 |
| 公開(公告)號: | CN104756113B | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 帕特里克·古林;安德列斯·托斯滕森 | 申請(專利權)人: | 瑞典愛立信有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司11021 | 代理人: | 穆童 |
| 地址: | 瑞典斯*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 檢測 數據源 中的 偏差 方法 設備 計算機 程序 | ||
技術領域
本公開大體上涉及用于檢測數據源中的偏差的方法、設備和計算機程序。
背景技術
在大多數企業(例如,移動通信運營商)中,信息遍布于很多不同的數據源。存儲在不同源中的數據是重復的或者至少具有相同含義的情況不在少數。當預期為相同的數據由于某種原因而不同時,可能出現不期望的問題,例如,在移動通信網絡中,移動電話的用戶不能打電話、或者運營商不能對顧客進行計費等。因此,不一致的數據可能引起很多麻煩。根據申請人的調查,平均移動通信運營商的收入流失約為2%,并且該收入流失的很大一部分是不一致數據(其導致通信使用的含糊不清的登記,因此不能對通信使用進行計費)的直接或間接結果。
如今,市場上存在對數據源進行掃描以尋找數據不一致或數據偏差的工具。此類工具的一個常見問題是必須向工具指示在數據源中尋找什么。因為每一個數據系統包括這樣的數據源,即,其中存儲的數據具有其自己的數據結構,因此,必須針對要掃描的每一個數據源組合向工具指示。即,工具需要關于數據源的數據模型以及數據模型如何相互相關的指示。然而,不同的系統或源可能來自不同的供應商,并且可能難以有權訪問描述數據模型的文件。另一個問題是數據模型通常很復雜,使得即使某人已知或有權訪問一個數據模型的描述,也難以分辨它如何與另一數據模型相關。另一個問題是,為了尋找數據偏差,可能還必須理解什么被認為是偏差以及什么不被認為是偏差。
此外,數據源中的數據可以隨著時間改變。在這些情況下,被認為是數據偏差的內容可能實時改變。
因此,需要用于有效地檢測不同數據源的數據之間的數據偏差的工具。
發明內容
本發明的目的是解決上文列出的問題中的至少一些。可以通過使用所附獨立權利要求中定義的方法和設備來實現這些和其他目的。
根據第一方面,提供了一種用于檢測數據源中的偏差的方法,每一個數據源包括多個數據公布,每一個數據公布包括多個數據值。所述方法包括:標識數據公布對,每一對包括第一數據源中的第一數據公布和第二數據源中的第二數據公布,其中,針對數據公布對中的第一數據公布和第二數據公布的唯一匹配數據屬性,數據值的子集相等。此外,所述方法還包括:確定所述多個數據公布對中的每一個數據公布對中的第一數據公布的數據值和第二數據公布的數據值的多個組合中的個體組合是否滿足多個關系模式算法中的個體關系模式算法。此外,所述方法還包括:確定針對所述多個數據公布對所確定的關系模式算法的滿足的符合性水平;以及基于所確定的符合性水平,從所述多個關系模式算法中選擇關系模式算法。所述方法還包括:關于所選擇的關系模式算法,分析個體數據公布對的數據值組合,以檢測個體數據公布對中不符合所選擇的關系模式算法的數據值組合,不符合指示個體數據公布對的數據的可能偏差。
通過這種方法,可以自動地檢測具有可比較的數據公布的兩個數據源的數據之間的可能偏差。例如,可以自動地檢測兩個可比較數據源中的任意一個的數據的錯誤。如果檢測到這種數據錯誤或數據值錯誤,則可以容易地減輕這些錯誤,并且可以避免由于這些錯誤引起的問題。可能的使用情況是針對移動通信運營商的相當大的數據庫。在該使用情況下,可以避免的問題的示例是如果在兩個相當大的數據庫中存在偏差,則可能不清楚向誰收取撥打的電話的費用,這導致運營商收入流失。此外,該方法使得可以從多個關系模式算法中選擇適合于個體數據值組合的關系的關系模式算法,這導致尋找偏差的準確度提高。
根據第二方面,提供了一種用于檢測數據源中的偏差的設備,每一個數據源包括多個數據公布,每一個數據公布包括多個數據值。所述設備包括:標識單元,用于標識數據公布對,每一對包括第一數據源中的第一數據公布和第二數據源中的第二數據公布,其中,針對數據公布對中的第一數據公布和第二數據公布的唯一匹配數據屬性,數據值的子集相等。此外,所述設備包括:確定單元,用于確定所述多個數據公布對中的每一個數據公布對中的第一數據公布的數據值和第二數據公布的數據值的多個組合中的個體組合是否滿足多個關系模式算法中的個體關系模式算法,以及用于確定針對所述多個數據公布對所確定的關系模式算法的滿足的符合性水平。所述設備還包括:選擇單元,用于基于所確定的符合性水平,從所述多個關系模式算法中選擇關系模式算法;以及分析單元,用于關于所選擇的關系模式算法,分析個體數據公布對的數據值組合,以檢測個體數據公布對中不符合所選擇的關系模式算法的數據值組合,不符合指示個體數據公布對的數據的可能偏差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于瑞典愛立信有限公司,未經瑞典愛立信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380057211.2/2.html,轉載請聲明來源鉆瓜專利網。





