[發明專利]一種基于本體的關聯數據質量評估方法有效
| 申請號: | 201811004187.7 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109101656B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 袁滿;胡超;張麗偉;陳萍;鄒晨紅;仇婷婷 | 申請(專利權)人: | 東北石油大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458 |
| 代理公司: | 哈爾濱東方專利事務所 23118 | 代理人: | 曹愛華 |
| 地址: | 163319 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 本體 關聯 數據 質量 評估 方法 | ||
1.一種基于本體的關聯數據質量評估方法,其特征在于包括如下步驟:
步驟一:進行關聯數據質量評估數學模型定義;
關聯數據質量通過多個質量維度進行描述,包括鏈接有效性、語義關聯性、句法準確性、數據實體準確性,通過對這些數據質量維度的評估達到對關聯數據的數據質量評估的目的;
關聯數據質量評估模型LDQAM評估的數學模型定義:
定義1:任何關聯數據質量評估都形式化為一個七元組:
SpvardDom,S,P,V,A,R,D
其中,
Dom-領域,評估的關聯數據隸屬的領域;
S-關聯數據集,
P-關聯數據的屬性集,
V-關聯數據的數據集實例,即屬性值,
A-關聯數據評估中用到的算法集,
D-關聯數據評估維度,
R-關聯數據評估規則集;
定義2:關聯數據集:關聯數據中的所有實體都有一個唯一的URI,通過網絡上的Http協議用URI定位并找到相應數據,根據關聯數據共享權限,實例集用URI和所屬數據領域進行描述:
S=URI,Dom
其中URI表示的是關聯數據集中各個實例的鏈接的集合,Dom標識的是該關聯數據集所屬的領域;
定義3:關聯數據的屬性集:關聯數據中的數據能夠形成關聯的必要因素就是屬性,這些屬性的集合即為關聯數據的屬性集,不同的實例只有通過屬性的鏈接才能形成相應的關聯性:
P=Predicates,Type
其中Predicates表示的屬性的集合,Type表示屬性的類型,即對象屬性和數據屬性;
定義4:關聯數據的數據項:關聯數據的作用是將數據關聯在一起,數據項是關聯數據中屬性值的集合:
V=Value,Weight
其中Value表示的屬性的集合,Weight表示屬性的在評估中的權重,
定義5:關聯數據評估算法集:由評估算法所構成的集合;
A={algi|Define(algi),1≤i≤n}
其中Define(algi)是對評估算法的定義;
定義6:規則集合:每個評估維度所包含規則的集合,描述如下:
R=DIMi,Ruleij,
其中的i=1,2,……,n,j=1,2,....,m,在同一個維度有多個規則,
Ruleij表示在維度i上的第j個規則;
步驟二:進行LDQAM數學模型向本體模型的映射;
將本體形式化為五元組O=C,R,F,A,I,,其中C-類,R-關系,F-函數,A-公理,I-實例,根據給出的LDQAM的數學模型,從關聯數據質量通用模型到本體模式的映射規則如下:
1:關聯數據集到本體實例的映射;
2:維度到本體類的映射;
3:屬性集到本體屬性的映射;
4:規則集到公理的映射;
5:數據集到屬性實例的映射;
6:算法集到本體類的映射;
映射規則如下:
(1)關聯數集S的映射;
關聯數據集是指需要進行評估的數據集鏈接的集合;關聯數據集到本體實例的映射是對本體類實例進行映射,映射過程如下:
其中,IUname表示以鏈接命名的本體實例;
(2)維度到本體類的映射;
維度集是指評估維度的集合,映射成本體中的類,映射過程如下:
其中,Cdim表示以維度名字命名的本體類;
(3)屬性集到本體屬性的映射;
屬性集即實體屬性的集合,關聯數據屬性映射成本體屬性,映射過程如下:
其中,Property有分為DataProperty和ElementProperty兩種,具體分類原則是根據predicate后面所接的Value值所決定的,當Value值為對象時,Property為ElementProperty,否則為DataProperty;
(4)數據集到屬性實例;
實例集是指數據集,記錄實例的集合,映射成本體類的實例或本體屬性實例,映射過程如下:
(5)算法集到本體類的映射;
算法集是數據質量評估算法的集合,映射成以算法名稱命名的本體類,映射過程如下:
規則集中包含的是與評估維度相對應的規則,對于選定評估維度的數據集,制定評估維度對應的評估規則;在規則集中,規則分為數據項約束規則、類約束規則和語義約束規則;根據制定的映射規則,將關聯數據質量數學模型轉化為本體;
步驟三:約束規則與推理規則制定;
關聯數據質量評估約束規則;
每個關聯數據質量問題都建立在數據的屬性、屬性值上面,屬性分為數據屬性和對象屬性;關聯數據質量評估約束規則通過對相應的屬性和屬性值進行分析,然后制定相應的約束規則;
關聯數據推理規則:
選擇基于關聯數據質量本體的SWRL規則推理,通過SWRL規則實現了關聯數據屬性與關聯數據質量約束規則之間關系的推理,關聯數據質量約束規則與任務之間的推理,通過推理結果實現關聯數據質量約束規則與任務名稱之間關系推理;
規則1:如果存在URI X,如果一個鏈接含有Http前綴Y,當一個實例同時存在上述條件,則該實例可被訪問,【TestedClass(?x)∧URIPrefix(?y)→AvailableURI(?x,?y)】;
規則2:根據關聯數據URI的特點,制定數據集與數據集屬性之間的關系,如果數據集X存在必要屬性HasURI Z,數據集屬性Y存在必要屬性HasURI A,并且A是以Z作為前綴,那么數據集屬性Y是數據集X的屬性;
【TestedClass(?x)∧TestedProperty(?y)∧hasURI(?x,?z)∧hasURI(?y,?a)∧swrlb:startsWith(?a,?z)→hasProperties(?x,?y)】;
步驟四:關聯數據質量評估原型系統搭建:
驗證本體描述的關聯數據質量約束規則,并依據質量約束規則實施對數據集中的任一屬性的質量檢測;
步驟五:進行數據評估服務;
(1)確定評估領域,對必須的領域特有規則進行添加;
(2)根據相關數據集URI進行數據遍歷,獲取該關聯數據集中所有實例的URI,并驗證關聯數據質量中鏈接有效性、可用性;
(3)根據遍歷得到的URI集進行關聯數據屬性的評估,對于數據項相關方面進行評估;
(4)將利用相關規則評估得到的問題數據進行提取和存儲,并給出最終評估結果;
(5)分析用戶對評估結果的滿意度,對方法的設定進行調整,即用戶反饋再生產模式,最終得到標準評估方法及評估結果,便于進行數據清洗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北石油大學,未經東北石油大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811004187.7/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





