[發明專利]一種采用特征值相似度的數據關聯方法有效
| 申請號: | 201510905286.2 | 申請日: | 2015-12-10 |
| 公開(公告)號: | CN105512484B | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 裴廷睿;葉學輝;田淑娟;吳相潤;崔榮埈;關屋大雄;李哲濤 | 申請(專利權)人: | 湘潭大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 411105 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 采用 特征值 相似 數據 關聯 方法 | ||
本發明提出了一種采用特征值相似度的數據關聯方法。本發明步驟:首先,獲得數個包含多個屬性的數據源并對其進行預處理;其次根據用戶要求確定屬性優先級列表;然后,每個數據源根據優先級列表形成多個相似屬性群,數據源中沒有存在相似屬性群的屬性形成一個剩余屬性群;再分別計算兩個數據源之間對應的相似屬性群的相似度和剩余屬性群之間的相似度來對兩個數據源進行數據關聯。本發明改善了傳統數據關聯方法的效能,提高了數據關聯的準確性。
技術領域
本發明涉及數據庫信息處理領域,具體的說是一種采用特征值相似度的數據關聯方法。
背景技術
數據關聯通過將分散領域中的數據通過結構化描述以及數據之間的鏈接關聯起來,形成全球巨大數據空間,即數據網絡。這種數據網絡資源環境為信息的最大限度共享、重用以及發行提供了保障,也為人們的知識發現活動提供了新的機遇。隨著語義網技術的不斷成熟,網絡資源環境向智能化、語義化和結構化方向發展。語義網通過給萬維網上的文檔添加形式化語義信息,使計算機可以理解和處理這些文檔,實現數據的自動化處理,提高信息檢索的效率,數據關聯的提出使語義網有了實質性的發展。
目前數據關聯技術體系主要包括了四個部分:數據內容組織、數據關聯的創建與發布、數據關聯的瀏覽與檢索、數據關聯的互聯和維護。其中數據關聯的創建與發布是實現數據關聯的關鍵環節,需要滿足以下三個要求:1)用規范形式來描述內容對象的內部結構及其內含內容的語義,這個描述的深度取決于內容對象本身的內容深度和所依據元數據格式的豐富程度;2)在上述描述信息里建立這個內容對象與其他內容對象的關聯描述,與其他內容對象的不同的關聯關系則需要根據不同的關聯種類來分析和確定,這屬于整個數據關聯體系中最富有挑戰性的工作;3)以某種系統體制存儲所建立描述信息,支持以公共方法進行檢索解析。數據關聯作為一種折中的語義化知識組織與發現機制,對上層的概念模型以及知識的表達能力尚存不足,而傳統的相似度計算主要依靠的是實例對象特征的外在表現形式,也忽略了其之間的相關性。
發明內容
本發明的目的在于克服上述已有技術的缺點,提出了一種采用特征值相似度的數據關聯方法,以實例對象的相關性為前提,能準確計算兩個實例之間的相似度,以此來進行數據關聯。
本發明步驟:首先,獲得數個包含多個屬性的數據源并對其進行預處理;其次根據用戶要求確定屬性優先級列表list;然后,每個數據源根據優先級列表形成多個相似屬性群,數據源中沒有存在相似屬性群的屬性形成一個剩余屬性群;再分別計算兩個數據源之間對應的相似屬性群的相似度和剩余屬性群之間的相似度來對兩個數據源進行數據關聯,其具體步驟包括如下:
步驟一:獲得i個包含多個屬性的數據源λ,記為λi(i∈[1,M]),對λi進行預處理;
步驟二:確定屬性優先級列表list={Pm,Pn,…},m,n表示屬性的編號m≠n,m,n∈[1,N];
步驟三:各數據源按屬性優先級列表list,以優先級從高到低形成相似屬性群記為ωik,同時獲得剩余屬性群ηi,其中i表示數據源λi的編號,k表示優先級列表list中屬性的編號;
步驟四:以相似屬性群為基礎計算各數據源之間的相似度,進行數據關聯。
本發明具有如下優點:
1、本發明將同一數據源屬性以相似屬性群來進行相似度計算,提高了相似度計算結果的客觀性和準確性。
2、本發明按照用戶設定的優先級來進行相似度計算的相關操作,使數據關聯的結果更加適應了用戶的要求。
附圖說明
圖1是本發明流程圖;
圖2是本發明建立相似屬性群過程的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湘潭大學,未經湘潭大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510905286.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





