[發明專利]基于差分隱私的集成學習分類方法有效
| 申請號: | 202010010391.0 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111222570B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 李先賢;劉靜;劉松逢;王金艷 | 申請(專利權)人: | 廣西師范大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/20 |
| 代理公司: | 桂林市持衡專利商標事務所有限公司 45107 | 代理人: | 陳躍琳 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 隱私 集成 學習 分類 方法 | ||
本發明公開一種基于差分隱私的集成學習分類方法,首先為了獲得具有比較大的差異的基分類器,訓練基分類器前先對訓練數據集做預處理,增加基分類器多樣性的同時提高了隱私預算利用率;然后利用拉普拉斯機制對基分類器模型參數進行加噪,得到滿足差分隱私的基分類器;最后通過增量選擇得到最終的集成模型。本發明所獲得的集成模型能夠有效避免隱私泄露。
技術領域
本發明涉及數據隱私保護技術領域,具體涉及一種基于差分隱私的集成學習分類方法。
背景技術
集成學習是近年來數據挖掘和機器學習領域的研究熱點之一,它在處理數據挖掘、智能交通系統、生物信息等領域的各種類型的真實數據具有有效性。集成學習就是將多個弱學習器進行組合,從而獲得比單個學習器顯著優越的泛化性能。要獲得好的集成模型,個體學習器應該“好而不同”,也就是個體學習器要有一定的準確性,并且要有多樣性,即學習器之間具有差異。
在大數據時代,大數據備受關注,主要是從其中挖掘出新的有價值的信息。數據挖掘通過對大量數據進行有效的提取分析,得到有價值的信息。數據挖掘包括分類、聚類、關聯等方法,由于數據發布、共享和分析,個人隱私信息很容易被泄露,隱私問題受到越來越多的關注。所以,在數據挖掘中,提取有價值信息的同時不泄露敏感隱私信息顯得極其重要。集成學習廣泛應用于數據挖掘領域,但是目前的集成學習方法主要考慮精度,卻很少考慮隱私泄露問題,敵手可以通過對數據的分析對比推測個人信息,從而導致個人敏感信息遭到泄露。
發明內容
本發明所要解決的是集成學習在處理分類任務時的分類結果和模型參數所導致的隱私泄露的問題,提供一種基于差分隱私的集成學習分類方法。
為解決上述問題,本發明是通過以下技術方案實現的:
基于差分隱私的集成學習分類方法,包括步驟如下:
步驟1、將數據集的特征值歸一化到[0,1],然后將數據集劃分為原始訓練數據集和驗證數據集;同時,設定無放回采樣數據集的個數T、有放回采樣數據集的個數S和集成模型中基分類器的個數G;
步驟2、利用裝袋自助采樣法,先對原始訓練數據集進行無放回采樣得到T個無放回采樣數據集Di,再分別對每個無放回采樣數據集進行有放回采樣得到S個有放回采樣數據集
步驟3、對于每個無放回采樣數據集Di,利用杰卡德相似系數計算其S個有放回采樣數據集兩兩之間的相似度,并隨機刪除相似度大于閾值的其中一個有放回采樣數據集,將剩下的si個有放回采樣數據集作為基分類器訓練數據集;
步驟4、利用步驟3得到的個基分類器訓練數據集分別去訓練個基分類器,在訓練過程中對基分類器的類先驗概率、均值向量和協方差矩陣加入拉普拉斯噪聲,并對加噪后的協方差矩陣進行特征值分解使其滿足半正定性,最后將得到的個滿足差分隱私的基分類器即候選基分類器,并構成候選基分類器集合;
步驟5、對步驟4所得到的候選基分類器進行增量選擇,由此得到最終集成模型,即:
步驟5.1、從當前候選基分類器集合中選擇精度最高的候選基分類器作為集成模型的第一個基分類器,以構建當前集成模型,并從當前候選基分類器集合中刪除該候選基分類器;
步驟5.2、計算當前候選基分類器集合中所有候選基分類器的重要性,并按照重要性降序對這些候選基分類器進行排序;
步驟5.3、從重要性高的候選基分類器開始逐一選取,并判斷當前選出的候選基分類器是否對當前集成模型的精度有貢獻:
如果有貢獻,則將當前選出的候選基分類器與當前集成模型中的基分類器組合,以更新當前集成模型,并將當前選出的候選基分類器從當前候選基分類器集合中刪除,并轉至步驟5.4;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西師范大學,未經廣西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010010391.0/2.html,轉載請聲明來源鉆瓜專利網。





