[發明專利]一種基于準標識屬性取值頻次的k-匿名隱私保護方法在審
| 申請號: | 201910122123.5 | 申請日: | 2019-02-19 |
| 公開(公告)號: | CN109918940A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 肖躍雷;朱志祥 | 申請(專利權)人: | 陜西省信息化工程研究院 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710075 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標識屬性 全域 匿名模型 隱私保護 發布 數據分布 數據分析 信息損失 層次樹 重復 檢驗 | ||
本發明提供了一種既有利于數據分析又減少信息損失的基于準標識屬性取值頻次的k?匿名隱私保護方法,其特殊之處在于:該方法包括:1)對于待發布數據表中的各個準標識屬性,根據數據分布情況和業務情況建立各個準標識屬性的泛化層次樹;2)計算各個準標識屬性的屬性取值個數、屬性取值頻次和屬性取值熵值;3)按照屬性取值頻次最小、屬性取值個數最多和屬性取值熵值最小的優先順序,選擇一個準標識屬性進行一個層次的全域泛化;4)對步驟3)中全域泛化后的待發布數據表進行k?匿名模型檢驗;若符合k?匿名模型,則以步驟3)中全域泛化后的待發布數據表為最終發布數據表;否則,重復進行步驟2)、步驟3)和步驟4)。
技術領域
本發明涉及數據隱私保護領域,更具體地,涉及一種基于準標識屬性取值頻次的k-匿名隱私保護方法。
背景技術
隨著社會信息化和網絡化的發展,數據呈現爆炸式增長,大數據時代已經到來;目前,大數據已成為學術界和產業界的研究熱點,正影響著人們日常生活、工作習慣及思維方式;在數據發布應用中,如何保護數據的用戶隱私已成為當前面臨的重大挑戰;最簡單的保護用戶隱私的方法就是在發布原始數據時直接通過刪除姓名、身份證號碼等標識屬性來達到防范用戶隱私泄露;但是由于以這種方式發布的數據集中的某些屬性值集合能夠聯合該數據集外的相關信息精確或較精確地重新標識某個體,稱之為鏈接攻擊。
為了解決這種鏈接攻擊,研究者們提出了k-匿名模型,它要求所發布的數據表中的每一條記錄不能區分于其他k-1條記錄,即在滿足k-匿名模型的數據表中,任意一條記錄被重新標識出的風險都不會超過1/k;k-匿名模型通常將數據表的屬性劃分以下為四類:(1)標識屬性:這類屬性能夠唯一標識個體身份的屬性,如用戶身份證號碼、姓名等;(2)準標識屬性:這類屬性雖然不像標識屬性一樣能夠直接標識個體身份,但是通過屬性的鏈接可以標記出個體身份的一組屬性,如準標識屬性組{年齡,工作類型,膚色,性別};(3)敏感屬性:這類屬性涉及個體隱私信息,如薪水、健康狀況等;(4)其它屬性:指除標識屬性、準標識屬性和敏感屬性外的屬性。
一般遵循k-匿名模型的數據發布大多采用泛化和抑制技術,這在很大程度上造成了原始數據的信息損失;泛化是對數據進行更概括、更抽象的描述;抑制就是刪除某一些數據項使其不發布或是用一種特殊的符號來代替某一數據項;例如,性別屬性的泛化層次樹,參見圖1。
在圖1中,性別屬性的泛化層次為2(從底向上分別為0,1),而性別屬性的泛化層次高度為1,性別屬性的屬性取值為“男”、“女”和“性別”;泛化方法可以分為全域泛化和局部泛化兩種;全域泛化是對一個屬性上的所有屬性取值同時進行泛化,如圖1中“男”和“女”同時泛化為“性別”;局部泛化是對一個屬性上的部分屬性取值進行泛化,如圖1中“男”泛化為“性別”,而“女”不進行泛化;全域泛化的優點是每次屬性泛化完成后,該屬性上的所有屬性取值都保持在同一個泛化層次,有利于數據分析,而局部泛化不能保障這一點。但是,全域泛化一般比局部泛化的信息損失要大;因此,如何使得發布的數據表在滿足k-匿名模型的同時,既有利于數據分析又減少信息損失,這已成為隱私保護研究的重點。
發明內容
為了解決背景技術中存在的上述技術問題,本發明提供了一種既有利于數據分析又減少信息損失的基于準標識屬性取值頻次的k-匿名隱私保護方法。
本發明的技術解決方案是:本發明提供了一種基于準標識屬性取值頻次的k-匿名隱私保護方法,其特殊之處在于:該方法包括。
1)對于待發布數據表中的各個準標識屬性,根據數據分布情況和業務情況建立各個準標識屬性的泛化層次樹。
2)對于待發布數據表中的各個準標識屬性,計算各個準標識屬性的屬性取值個數、屬性取值頻次和屬性取值熵值。
3)對于待發布數據表中的各個準標識屬性,按照屬性取值頻次最小、屬性取值個數最多和屬性取值熵值最小的優先順序,選擇一個準標識屬性進行一個層次的全域泛化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西省信息化工程研究院,未經陜西省信息化工程研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910122123.5/2.html,轉載請聲明來源鉆瓜專利網。





