[發明專利]一種基于樹狀圖的數據相似度匹配方法及裝置在審
| 申請號: | 201611270556.8 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN108268548A | 公開(公告)日: | 2018-07-10 |
| 發明(設計)人: | 楊婉;李青海;黃超;潘宇翔;王平;張曉亭 | 申請(專利權)人: | 廣東精點數據科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京隆源天恒知識產權代理事務所(普通合伙) 11473 | 代理人: | 閆冬 |
| 地址: | 510630 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據相似度 樹狀圖 總相似度 相似度計算 計算單元 信息量 匹配 相似度計算單元 屬性相似度 相似度匹配 加權計算 建立單元 | ||
1.一種基于樹狀圖的數據相似度匹配方法,其特征在于,包括:
步驟S1,對需要進行相似度匹配的數據,建立以所述數據為部分節點的樹狀圖;
步驟S2,以信息量為基礎,對所述數據進行相似度計算;
步驟S3,以屬性為基礎,對所述數據進行相似度計算;
步驟S6,對所述數據相似度進行加權計算,得到總相似度。
2.如權利要求1所述的基于樹狀圖的數據相似度匹配方法,其特征在于,還包括:步驟S4,以語義距離為基礎,對所述數據進行相似度計算。
3.如權利要求2所述的基于樹狀圖的數據相似度匹配方法,其特征在于,還包括步驟S5,以語義密度為基礎,對數據進行相似度計算。
4.如權利要求3所述的基于樹狀圖的數據相似度匹配方法,其特征在于,所述步驟S6中,所述總相似度計算公式為:
sim(i,j)=α×sim1(i,j)+β×sim2(i,j)+γ×sim3(i,j)+δ×sim4(i,j)
α+β+γ+δ=1
其中sim(i,j)為數據i和數據j的總相似度;sim1(i,j)為數據i與數據j的基于信息量的相似度;sim2(i,j)為數據i與數據j的基于屬性的相似度;sim3(i,j)為數據i與數據j的基于語義距離的相似度;sim4(i,j)為數據i與數據j的基于語義密度的相似度;α、β、γ、δ分別為與sim1(i,j)、sim2(i,j)、sim3(i,j)、sim4(i,j)對應的調節因子。
5.如權利要求1-4中任一所述的基于樹狀圖的數據相似度匹配方法,其特征在于,所述步驟S2中,所述相似度計算公式為:
其中,sim1(i,j)為數據i與數據j的基于信息量的相似度;Anc(i,j)為數據i和數據j在所述樹狀圖中的最近共同祖先節點;I(i)、I(j)、I[Anc(i,j)]分別為數據i、數據j、Anc(i,j)的信息量。
6.如權利要求I-4中任一所述的基于樹狀圖的數據相似度匹配方法,其特征在于,所述步驟S3中,所述相似度計算公式為:
其中,sim2(i,j)為數據i與數據j的基于屬性的相似度;Attr(i)、Attr(j)分別為數據i、數據j的屬性的屬性值的總數。
7.如權利要求1-4中任一所述的基于樹狀圖的數據相似度匹配方法,其特征在于,所述步驟S4中,所述相似度計算公式為:
其中,sim3(i,j)為數據i與數據j的基于語義距離的相似度;DIS(i,j)為數據i與數據j在樹狀圖中的最短路徑的邊數;Depth(T)為樹狀圖的深度。
8.一種與上述所述的基于樹狀圖的數據相似度匹配方法對應的基于樹狀圖的數據相似度匹配裝置,其特征在于,包括:
樹狀圖建立單元,其對需要進行相似度匹配的數據,建立以所述數據為部分節點的樹狀圖;
信息量相似度計算單元,其以信息量為基礎,對所述數據進行相似度計算;
屬性相似度計算單元,其以屬性為基礎,對所述數據進行相似度計算;
總相似度計算單元,其對所述數據相似度進行加權計算,得到總相似度。
9.如權利要求8所述的基于樹狀圖的數據相似度匹配裝置,其特征在于,還包括:語義距離相似度計算單元,其以語義距離為基礎,對所述數據進行相似度計算。
10.如權利要求9所述的基于樹狀圖的數據相似度匹配裝置,其特征在于,還包括:語義密度相似度計算單元,其以語義密度為基礎,對數據進行相似度計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東精點數據科技股份有限公司,未經廣東精點數據科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611270556.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用戶畫像生成方法和裝置
- 下一篇:數據稽核系統和方法





