[發明專利]一種基于排序的微聚集匿名化方法有效
| 申請號: | 201711210204.8 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN108052832B | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 許國艷;宋健;李敏佳;平萍;張網娟;朱帥 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 排序 聚集 匿名 方法 | ||
1.一種基于排序的微聚集匿名化方法,其特征在于,該方法包括以下步驟:
(1)排序操作:基于Ql準標識符對數據集T劃分為多個等價類,使得k-劃分是所述數據集T基于Ql準標識符的,k是匿名參數,依據數值型屬性值對所述數據集T排序;
所述排序操作的具體步驟包括:
(11)將所述數據集T,所述數據集T的記錄總數n和所述數據集T的屬性總數p作為輸入,首先定義所述數據集T所有記錄的索引,遍歷所有屬性Y1,Y2,...,Yp,然后遍歷每個屬性下的所有記錄yij,yij表示第i個屬性的第j個記錄;其中,1≤i≤p,1≤j≤n;
(12)輸出為每一個記錄到所述記錄相應的質心距離的測度SFj,表示為:
(13)在所述數據集T中,按照步驟(12)中所述SFj進行升序排列得到所述排序操作后的數據集T';
(2)基于排序的劃分操作:從排序操作后的數據集T′初始化的第一條和最后一條極端記錄開始分別系統地形成等價類,等價類的記錄數保持在k之內;
所述基于排序的劃分操作具體包括:
(21)將所述排序操作后的數據集T'作為輸入,當所述排序操作后的數據集|T'|≥3k時,找到所述數據集T'中第一條記錄和最后一條記錄;
(22)分別以所述第一條和最后一條記錄為等價類中心,與其最近的k-1條記錄組成等價類s1、s2,并且把所述等價類在所述數據集T'中刪除得到新的數據集T',所述新的數據集T'包含剩下的n-2k條記錄;
(23)當所述新的數據集2k≤|T'|<3k時,找到所述新的數據集T'中第一條記錄和最后一條記錄;并分別以此為等價類中心,與其最近的k-1條記錄組成等價類s3、s4,并且把此等價類在數據集T'中刪除得到最新的數據集T';
(24)當所述最新的數據集|T'|<2k則自成一等價類s5;
(25)將所述步驟(21)、(22)、(23)和(24)中得到的所述等價類合并在一起形成一個等價類集合;
(3)聚集操作:以所述兩個極端記錄的中心點作為每個等價類的質心點,以所述等價類的均值代替所有的敏感屬性值形成匿名等價類;
所述聚集操作具體步驟包括:
(31)計算每個等價類的質心平均值其中,表示每個等價類的質心平均值,yi表示第i個等價類的質心;
(32)用計算得到的每個等價類中的所述質心平均值逐個代替所述排序劃分操作得到的等價類記錄的各個值,形成匿名等價類。
2.根據權利要求1所述的基于排序的微聚集匿名化方法,其特征在于,步驟(1)中,所述使得k-劃分是所述數據集T基于Ql準標識符是指符合公式且其中,ni是第i個等價類的記錄數,g是指對所述數據集T進行劃分的等價類的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711210204.8/1.html,轉載請聲明來源鉆瓜專利網。





