[發明專利]一種多叉樹森林K-匿名方法、系統、設備和可讀存儲介質在審
| 申請號: | 202010514315.3 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111695153A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 羅霄;陳先來;劉莉;安瑩;李忠民 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 張建利 |
| 地址: | 410012*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多叉樹 森林 匿名 方法 系統 設備 可讀 存儲 介質 | ||
本申請實施例公開了一種多叉樹森林K?匿名方法、系統、設備和可讀存儲介質,以識別率的計算為基礎,解決了貪婪算法在局域泛化模式中每一步最優泛化數據選擇的問題,建立多叉樹森林實現了泛化數據的存儲和局域泛化,以多線程的泛化數據選擇和K?匿名的并行式計算判斷提升了模型的效率。即在原始數據的基礎上將部分數據泛化,使匿名后的數據集滿足K?匿名模型。在保障數據安全性的條件下,不會影響數據本身的真實性。同時模型保留了數據本身的分布,提高數據匿名化后數據的可用性,適用于小型數據集和大型數據集的匿名化處理。
技術領域
本申請實施例涉及信息安全技術領域,具體涉及一種多叉樹森林K-匿名方法、系統、設備和可讀存儲介質。
背景技術
隨著信息時代數據化步伐的加快以及大數據的普及應用,數據挖掘等技術帶來了巨大的知識收益,使得數據的搜集被賦予了更重要的地位但由于相關法律和技術不夠成熟等原因,在信息被共享應用的同時,造成了隱私泄露,這給隱私相關者帶來了潛在的安全隱患。數據發布中的安全問題逐漸成為了亟待解決的問題。
K-匿名算法作為較早提出的數據脫敏模型之一,對于數據的安全性保護具有很多良好的性質,但也存在不足。K匿名會產生由匿名化帶來的信息損失導致數據可用性變差,同時需要耗費大量的時間用于數據變化。該類算法存在著諸多局限性,首先,選擇某一屬性進行一次泛化后如不滿足K-匿名,就有可能造成該屬性的過度泛化,從而造成數據集的信息損失。其次,全域泛化一般很難滿足匿名后數據的可用性要求。此外,無法準確地度量在每次泛化中是否達到了最好的匿名效果,從而整體提升算法的效率。
發明內容
為此,本申請實施例提供一種多叉樹森林K-匿名方法、系統、設備和可讀存儲介質,適用于小型數據集和大型數據集的匿名化處理。即在原始數據的基礎上將部分數據泛化,使匿名后的數據集滿足K-匿名模型。在保障數據安全性的條件下,不會影響數據本身的真實性。同時模型保留了數據本身的分布,提高數據匿名化后數據的可用性。
為了實現上述目的,本申請實施例提供如下技術方案:
根據本申請實施例的第一方面,提供了一種多叉樹森林K-匿名方法,所述方法包括:
步驟A:判斷原始數據集D是否需要分割為n個子數據集;若需要,轉入步驟B;若不需要,轉入步驟C;
步驟B:將所述原始數據集D按照分割參數分割為n個子數據集D’={d1,d2,d3,...,dn},建立n個線程并行式分別計算n個子數據集,轉入步驟C;
步驟C:拷貝目標數據集,對目標數據集進行K-匿名檢測;若目標數據集滿足K匿名,則將目標數據集添加到匿名數據集中,并輸出匿名數據集;若不滿足,則檢查目標數據集存在的數據條數,若數據條數大于K則轉入步驟D,若數據條數小于K,則將剩余的數據泛化為最高層級并添加到匿名數據集,檢測匿名數據集是否滿足K-匿名,若滿足則輸出匿名數據集,若不滿足,則不進行本次添加;
步驟D:提取出目標數據集所有計數大于K的等價類,將其存入匿名數據集,目標數據集數量等于1的轉入步驟E,目標數據集數量大于1的轉入步驟F;
步驟E:選擇n-1個屬性組成n種組合等價類,生成等價類集G={g1,g2,g3,......,gn},其中屬性集的長度為n;計算出G中各等價類組存在的等價類數量,并取等價類數據條數計數值最大的子集在屬性集中的補集進行泛化,泛化后轉入步驟C進行K-匿名檢測;
步驟F:采用m個線程計算不同等價類數量,選擇m-1個屬性組成m種組合的子集,生成等價類集G={g1,g2,g3,......,gm},其中屬性集的長度為m;計算出G中各等價類組存在的等價類數量,并取等價類數據條數計數值最大的子集在屬性集中的補集進行泛化,泛化后轉入步驟C進行K-匿名檢測;
步驟G:當所有數據集的結果輸出后,輸出匯總所有數據集的匿名數據集和泛化精確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010514315.3/2.html,轉載請聲明來源鉆瓜專利網。





