[發明專利]一種面向差分隱私保護的頻繁項集挖掘方法有效
| 申請號: | 201811276452.7 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109409128B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 楊庚;蔣辰;白云璐;徐亞紅 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林;姚蘭蘭 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 隱私 保護 頻繁 挖掘 方法 | ||
1.一種面向差分隱私保護的頻繁項集挖掘方法,其特征在于,包括以下步驟:
步驟1:基于預設的數據集D={T1,T2…Tm},項集域A={i1,i2…in},使用Apriori算法計算出所有項集的支持度,從中挑選出頻繁項集;
步驟2:統計數據集中各條事務的長度并計算截斷長度L,根據所述截斷長度L截斷數據集;
步驟3:計算頻繁項集包含項的個數上限m和頻繁項個數λ,根據λ值構造頻繁項組成的集合F;
步驟4:構造最大頻繁項集MFI集合B及候選項集集合C;
步驟5:使用最大頻繁項集集合B對候選項集集合C中的項集進行加噪;
步驟6:使用初始最大頻繁項集集合B計算得到各個候選項集的支持度,計算與真實支持度的誤差之和E;遍歷集合B,尋找Bi、Bj∈B,Bi、Bj是B中的兩個最大頻繁項集;合并Bi、Bj后的集合為B′,若使用B′對候選項集進行加噪產生的誤差和小于E,則用B′取代B并且更新誤差之和E的值;當誤差之和E不再減小時停止迭代并輸出結果;
步驟2中,所述截斷長度L的統計向量{z1,z2…zn},zi為數據集中長度為i的事務的個數,i=1,……,n,對向量添加噪聲
其中,所述噪聲函數為雙邊幾何分布,ε為隱私預算;雙邊幾何分布概率密度函數如下:
將所述截斷長度L設置為滿足式(3)的值
2.根據權利要求1所述的面向差分隱私保護的頻繁項集挖掘方法,其特征在于,步驟2中,根據所述截斷長度L截斷數據集具體方法如下:
遍歷數據集D,對任意事務Ti∈D,|Ti|表示Ti包含項的個數,若|Ti|>L,則只保留Ti中支持度前L大的項,剔除其余的項;若|Ti|≤L,則不對Ti進行變動。
3.根據權利要求2所述的面向差分隱私保護的頻繁項集挖掘方法,其特征在于,步驟3中,計算向量yi(D)表示長度為i的項集中支持度最大的取值,τ表示第k頻繁項集的支持度,使用打分函數為-|yi(D)-τ|的指數機制從中挑選出m的值;表示向下取整;
計算向量{x1(D),x2(D)…xn(D)},xi(D)表示第i頻繁項的支持度,使用打分函數為-|xi(D)-τ|的指數機制從[1,2...n]中挑選出λ的值;
所有項按支持度由大到小排序,前λ個項組成集合F。
4.根據權利要求3所述的面向差分隱私保護的頻繁項集挖掘方法,其特征在于,所述指數機制描述如下:
設定輸出域為O,r表示從輸出域中所選擇的輸出項,定義一個打分函數u(D,r),用來衡量輸出結果為r時的準確度,則算法K輸出為r的概率表示如下:
其中,Δu表示打分函數的敏感度,ri表示輸出域O中的一個輸出項。
5.根據權利要求1所述的面向差分隱私保護的頻繁項集挖掘方法,其特征在于,步驟4具體步驟如下:
初始化所述最大頻繁項集MFI集合B和候選項集集合C為空集,再定義一個空集S;
先將F中的所有項添加到集合C中,接著以深度遍歷的方式從F中挑選項,并將挑選出的項添加到集合S中構成新集合S‘;若S‘仍然是頻繁的,繼續從F中挑選項;若不是,將S添加到MFI集合B中,并將S的子集添加到集合C中,回溯到上一個結點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811276452.7/1.html,轉載請聲明來源鉆瓜專利網。





