[發明專利]一種列聯表數據發布的隱私保護方法有效
| 申請號: | 201410457822.2 | 申請日: | 2014-09-10 |
| 公開(公告)號: | CN104216994B | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 丁曉鋒;金海;歐洋伶 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/60 |
| 代理公司: | 華中科技大學專利中心42201 | 代理人: | 廖盈春 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 列聯表 數據 發布 隱私 保護 方法 | ||
技術領域
本發明屬于計算機數據隱私保護技術領域,更具體地,涉及一種列聯表數據發布的隱私保護方法。
背景技術
數據發布的隱私保護技術是近年來數據挖掘領域的一項研究熱點。隨著大數據時代的到來,越來越多的數據正在被一些統計機構采集和分析。有時,這些機構會發布一些數據供第三方使用,而這些數據可能涵蓋數據被采集者的一些敏感信息,例如某病人患有某種疾病等。因此,直接發布這些數據會造成數據被采集者的隱私泄露。為了保護數據被采集者的隱私,數據發布方必須采取隱私保護措施。
列聯表(Contingency Table)指的是按兩個或多個屬性將數據分類時所列出的頻數表,是一種典型的非交互式數據發布形式。例如,在發布數據的時候,按“準身份標識屬性”與“敏感屬性”將數據分類,排列為一個m×n的二維列聯表,記作T。準身份標識屬性指的是類似“性別”、“年齡”、“郵編”這種可以通過聯接外部數據獲取個體身份的屬性,記作UQI={qv1,qv2,...,qvm},包含m個變量值。敏感屬性指的包含個體隱私信息的屬性,例如所患疾病等,記作Us={sv1,sv2,...,svn},包含n個變量值。二維列聯表T中的分組T(a,i)表示準身份標識屬性值為qva、敏感屬性值為svi的樣本個數。
ε-差分隱私(ε-Differential Privacy)是一種隱私安全模型,其假設一個足夠強大的攻擊者對于整個數據集有且僅有一個元素是未知的,并要求一個安全的算法應該保證無論一個用戶是否出現在該數據集中,都不會給查詢結果造成顯著差異。參數ε限制了元素“在”與“不在”數據集中的可能性之間的差異程度。ε越小,差異性就應該越小,安全要求也越高。基于ε-差分隱私模型的算法都采用隨機機制,讓攻擊者根據輸出結果無法分辨某個目標人物是否出現在原數據集中。
給定一個隱私保護機制M和數據集D,如果對于任意數據集D'(D與D'最多相差一個元素),以及都有:
那么,M滿足ε-差分隱私。
敏感度(Sensitivity)是差分隱私的一個重要概念。對于任意查詢函數q,q的敏感度記作:
Δq=max||q(D)-q(D')||
實現差分隱私的方式主要分為兩種,一種為拉普拉斯機制(Laplace Mechanism),基于這種機制的算法會將拉普拉斯隨機數作為噪音添加到查詢結果上。另一種為指數機制(Exponential Mechanism),是一種用于設計差分隱私算法的技術。一般來講,基于指數機制的算法的主要目的是在于保證ε-差分隱私的同時,最大化一個輸入和一個輸出間的隨機映射的可用性。
目前實現差分隱私的算法都是在給出特定的查詢函數后,通過對查詢結果變形,例如直接添加噪音,或通過可逆函數變形后添加噪音來實現。直接添加噪音的方法不能保證數據一致性,且精確度較低;可逆變形在線性轉換上,算法速度是一個瓶頸。且這些方法靈活性不高,一旦查詢函數或查詢條件改變,算法需要重新設計。
發明內容
針對現有技術的以上缺陷或改進需求,本發明提供一種列聯表數據發布的隱私保護方法,本發明的基本思想是將記錄的敏感屬性值隨機替換,保證數據滿足差分隱私,且支持任意原數據所支持的查詢,并具有較高的精確度。
本發明提供一種列聯表數據發布的隱私保護方法,包括:
步驟1確定列聯表T的每個分組T(a,i)的替換基數Φ(a,i),包括以下子步驟:
(1-1)確定每個分組T(a,i)的初始替換基數Φ0(a,i),其中,1≤a≤m,1≤i≤n,m對應準身份標識屬性的個數,n對應敏感屬性的個數,m為大于或等于1的整數,n為大于或者等于1的整數;
(1-2)為每個初始替換基數Φ0(a,i)加上一個隨機非負整數yi,得到每個分組T(a,i)的所述替換基數Φ(a,i);
步驟2對于每一個分組T(a,i),根據其所述替換基數Φ(a,i),取任意Φ(a,i)條記錄,將其原有的敏感值隨機替換為敏感屬性集合Us中的任意敏感值,其中,所述敏感屬性集合Us為包含個體隱私信息屬性的集合;
步驟3重新計算每個分組T(a,i)的記錄個數,得到新分組T*(a,i)并輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410457822.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





