[發明專利]一種基于本體的關聯數據質量評估方法有效
| 申請號: | 201811004187.7 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109101656B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 袁滿;胡超;張麗偉;陳萍;鄒晨紅;仇婷婷 | 申請(專利權)人: | 東北石油大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458 |
| 代理公司: | 哈爾濱東方專利事務所 23118 | 代理人: | 曹愛華 |
| 地址: | 163319 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 本體 關聯 數據 質量 評估 方法 | ||
本發明涉及的是一種基于本體的關聯數據質量評估方法,具體為:一、關聯數據質量評估數學模型定義;二、進行LDQAM數學模型向本體模型的映射;三、約束規則與推理規則制定,在使用本體進行關聯數據質量評估時,利用本體的約束規則和推理規則來進行數據篩選,從而進一步進行評估;四、關聯書質量評估原型系統搭建,基于上述規則進行評估系統構建,為數據評估進行服務;五、進行數據評估服務,利用構建的原型系統進行數據評估,并驗證系統的有效性。本發明結合關聯數據以及數據質量技術,用于發現目前網絡上已發布關聯數據中有關完整性、語義有效性、語義一致性、語義準確性、可用性等維度方面的缺陷,并給出相應解決方案。
技術領域
本發明涉及數據科學中的大數據數據質量評估技術,具體涉及一種基于本體的關聯數據質量評估方法。
背景技術
隨著網絡逐步進入3.0時代,文檔網絡將逐漸被數據網絡所取代,網絡上的數據更加趨向于多樣化、個性化和海量化。從網絡獲取數據不僅能滿足用戶對于數據多樣化和個性化的需求,更為實現海量數據共享服務打下基礎,特別是Tim Berners-Lee提出關聯數據標準規范以后,該技術越來越受到人們關注,并且在世界范圍得到了迅速的發展。關聯數據作為語義網的最佳實踐方式,可以根據不同數據之間,不同數據集的關系進行有規則的鏈接,使不同數據之間得到一種關聯,從而使數據間建立了自然的“關系”。利用資源描述框架(RDF)作為關聯數據的載體,使網絡資源有了被計算機理解的可能。關聯數據的發展為語義網的發展奠定基礎,語義網也成為關聯數據發展的主要動力。
語義網就是能夠使計算機利用數據間語義進行智能的計算和判斷,與Web3.0的智能化網絡不謀而合。從而使關聯數據成為網絡數據共享交互的關鍵。關聯數據的發布量也呈爆炸型增長,從2007年5月1號發布12個關聯數據集到2018年6月28號,這個新興的數據網絡包含了1,205個關聯數據集。然而,隨著關聯數據的不斷發展,越來越多的問題也呈現出來:關聯數據是由不同的企事業單位和個人發布的,不同關聯數據發布單位在地域、文化、語言等方面有著較大差異,導致關聯數據在發布時所使用的的標準不同;或者待發布的數據源中的數據本身就存在質量問題;或者在發布過程中,進行數據映射與轉換過程中也會存在一些問題;或者不同數據集之間鏈接的不穩定,而導致了不同的關聯數據集之間存在一些數據質量問題。關聯數據質量就指是在網絡上共享的關聯數據能夠滿足特定用戶的期望的程度或者是可用程度。關聯數據質量的評估標準以Tim Berners-Lee提出的“關聯數據四原則”、“關聯數據五星標準”、“綠色關聯數據”為基礎,從關聯數據內容、關聯數據描述、關聯數據系統和關聯數據應用四個方面進行評估。網上發布的關聯數據集已經涵蓋了多種領域,如媒體、地理、生命科學和政府等。但是,我們可以看到網絡上的數據質量存在很大差異。例如,從半結構化來源提取的數據通常出現信息不一致性和不完整性問題。隨著關聯數據的發展和使用,關聯數據質量逐漸得到了人們的關注。影響關聯數據質量的因素有很多,有的是因為鏈接URI有效性問題;有的是在發布之前沒有對語義的有效性、一致性、準確性以及句法的準確性等方面進行檢測;還有一些是因為數據自身問題。關聯數據的質量問題為關聯數據使用及語義網的發展都帶來了巨大的挑戰。國外針對關聯數據質量已經有了一定的研究,最早可以追溯到2003年Golbeck等對于“Trust Networks”的研究,雖然當時關聯數據這一概念還沒有被提出,但是“Trust Networks”的研究已經屬于關聯數據質量的研究范疇了。2010年在Data Engineering Workshops會議上提出了《Profiling linkedopen data with ProLOD》方法,標志著關聯數據質量的研究進入新的時代,隨后關聯數據質量研究與應用成為了熱點問題,隨著關聯數據質量的研究與發展,已經有一些針對關聯數據質量問題的評估工具投入使用。但是目前已有的關聯數據質量評估工具相對整個關聯數據評估維度來說都較為片面。例如,RDFStats就是針對可理解性和相關性兩個維度進行評估;RDFAlerts就是針對可用性、語義有效性、語義一致性三個維度進行評估[7];TripleCheckMate能夠對互聯性、安全性等近十個維度進行評估,但是相對于能夠影響關聯數據質量的190多個細致維度來說都相對片面;,目前已經有一些工具能夠進行關聯數據質量評估,在對目前主流的工具進行介紹和對比發現目前的評估工具都在不同方面存在一些不足,而且現有的評估工具也都不具有擴展性,易操作性,導致關聯數據質量評估工具并不能為我們提供良好的評估服務。因此發明提出一種易擴展且易用性高的關聯數據質量評估模型來解決這些問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北石油大學,未經東北石油大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811004187.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





