[發明專利]用于基于知識的數據質量解決方案的域有效
| 申請號: | 201210435087.6 | 申請日: | 2012-11-02 |
| 公開(公告)號: | CN102982097B | 公開(公告)日: | 2018-01-16 |
| 發明(設計)人: | J·瑪爾卡;E·齊克利克;E·胡迪斯;M·拉維夫;G·皮萊格;D·法伊比希 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司31100 | 代理人: | 陳斌 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 基于 知識 數據 質量 解決方案 | ||
技術領域
本發明一般涉及數據質量,尤其涉及基于知識的數據質量方案。
背景技術
隨著計算技術的提高以及計算設備變得更普遍,出于個人和公務原因使用計算機對于日常活動已經變得常見。為了跟上需求,數據集合呈指數級增長。數據集合以及數據的后續處理的目的在于理解所收集數據的意義,并出于有用的目的匯編所搜集的數據。
與數據的累積以及數據的任何相應使用相關聯的問題在于數據內包含的錯誤(例如低質量數據)。錯誤的示例可包括不正確的數據、缺失的數據、拼寫錯誤、誤置數據、重復數據、以及其它問題。依賴含錯誤數據的人和公司可基于該數據作出決定、分析、和/或其它動作,并且如果該數據有缺陷,則所得到的決定、分析等等也會是有缺陷的。如果事后發現錯誤,則會損壞數據的置信度和相關信任。在一些情形中,如果數據不滿足足夠的質量水平,則該數據可能無法加以信賴。
一些系統利用一般方法來改進數據質量。該一般方法基于“一視同仁”(one-size fits all)的思想。例如,該一般方法對數據應用一般算法,以嘗試凈化或改進數據的質量。由于一般算法是不管數據內容為何就應用的,因此一般方法僅能提供有限的解決方案。在一些情形中,一般方法可能無法解決與數據相關聯的問題。由此,已用一般算法凈化的數據的質量仍然會較低,因為原來的問題并沒有得到解決。
當今計算系統和數據質量方案的上述缺點僅旨在提供常規系統的一些問題的概覽,并且不旨在是窮盡性的。常規系統的其他問題以及此處所描述的各非限制性實施例的對應益處可以在審閱以下描述后變得更顯而易見。
發明內容
此處提供了簡化的發明內容以幫助能夠對以下更詳細的描述和附圖中的示例性、非限制性實施例的各方面有基本或大體的理解。然而,本發明內容并不旨在是詳盡的或窮盡的。相反,本發明內容的唯一目的在于,以簡化的形式提出與一些示例性、非限制性實施例相關的一些概念,作為以下各實施例的更詳細的描述的序言。
本文中所揭示的各個方面涉及提供基于知識的數據質量解決方案。該數據質量解決方案基于關于數據的知識的采集與數據處理的明確分離。還提供一種可傳遞、可移動、可插入的知識容器(例如,知識庫)。該數據質量解決方案還提供受引導的知識采集和向基于云的知識的無縫可擴展性。
另一方面涉及從內部信息(例如,來自客戶機或來自數據本身)和外部信息(例如,來自包含數據質量解決方案知識供下載的第三方網站)獲取有關數據的知識(例如,知識庫的創建)。進一步針對此方面地,應用知識庫來凈化數據、剖析數據、或執行語義去重復。
又一方面涉及一種包括數據質量服務器(及內部組件)的體系結構,該數據質量服務器鏈接客戶機和包含數據質量解決方案知識以供下載的第三方網站。此外,一方面涉及計算機輔助的知識采集和交互式凈化。再一方面涉及創建域、合成域以及交叉域。這些域是可移動、可下載的,并且可被共享。
這些和其他實施例在下文中更詳細地描述。
附圖說明
參考附圖進一步描述各非限制性實施例,在附圖中:
圖1示出根據一方面的示例性計算系統的框圖;
圖2示出根據一方面的配置成提供知識驅動的數據質量解決方案的系統的框圖;
圖3示出根據一方面的用于數據質量解決方案的另一系統;
圖4示出根據一方面的配置成提供數據質量解決方案的系統;
圖5示出根據一方面的配置成提供數據的去重復的系統;
圖6示出根據一方面的構建為匹配項目的輸出的示例性匹配結果域;
圖7示出根據一方面的用于基于知識的數據質量解決方案的示例性系統體系結構;
圖8示出根據一方面的數據質量(DQ)服務器的組件;
圖9示出根據一方面的使用數據集成的批量凈化;
圖10示出根據一方面的用于創建知識庫并使用知識庫來改進數據質量的方法的非限制性流程圖;
圖11示出根據一方面的用于基于知識的數據質量解決方案的方法的非限制性流程圖;
圖12示出了根據一方面的另一方法的非限制性流程圖;
圖13示出根據一方面的用于執行去重復作為基于知識的解決方案的方法的非限制性流程圖;
圖14示出根據一方面的用于交互式凈化數據的方法的非限制性流程圖;
圖15示出根據一方面的用于創建知識庫的方法的非限制性流程圖;
圖16是表示其中可實現在本文所述的各個實施例的示例性、非限制性聯網環境的框圖;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210435087.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種滿足配電實時監控的航拍地圖顯示方法
- 下一篇:雙曲式平衡錐型流量計
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





