[發明專利]一種基于關聯矩陣的不確定數據連接合并算法在審
| 申請號: | 201710050489.7 | 申請日: | 2017-01-23 |
| 公開(公告)號: | CN106897385A | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 梁俊杰;王明鋒 | 申請(專利權)人: | 武漢迎風聚智科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢河山金堂專利事務所(普通合伙)42212 | 代理人: | 胡清堂 |
| 地址: | 430077 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關聯 矩陣 不確定 數據 連接 合并 算法 | ||
1.一種基于關聯矩陣的不確定數據連接合并算法,其特征在于:該方法包括以下步驟:
步驟1:引入屬性重要度,數據表中數據對象的某一屬性的重要度越高則表示該屬性對該類數據對象的區分度越大;計算數據表中各屬性的重要度,找出數據表所有屬性重要度的最大值;
步驟2:確定數據表之間的關聯度,并建立關聯矩陣;
步驟3:根據關聯矩陣,按表關聯度從大到小選取未連接的數據表在關聯屬性上連接合并,同時綜合屬性重要度、屬性值相似度計算記錄相似度合并關聯記錄進而合并關聯表。
2.根據權利要求1所述的一種基于關聯矩陣的不確定數據連接合并算法,其特征在于:步驟1具體如下:
針對數據表T={P1,P2,...,Pn},Pi的取值為統計Pi中每個不同屬性值的出現次數,如表1所列:
表1 屬性Pi的取值分布
由于同一數據表中存在同一對象的概率很小,因此在大數據表中可以認為每一條記錄代表一個不同的對象,基于該假設,其值相等的概率為由于可得則屬性Pi的重要度為:
3.根據權利要求2所述的一種基于關聯矩陣的不確定數據連接合并算法,其特征在于:由于步驟1計算得到的屬性重要度的范圍較大不利于后期記錄相似度的計算,因此對屬性重要度進行平滑處理和歸一化處理,得到:
其中Wpmax表示數據表T所有屬性重要度的最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢迎風聚智科技有限公司,未經武漢迎風聚智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710050489.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種要點題自動評價方法及裝置
- 下一篇:一種大數據多維分析方法及系統





