[發明專利]基于異方差差分和K-匿名機制的醫療數據隱私保護方法有效
| 申請號: | 201811206205.X | 申請日: | 2018-10-18 |
| 公開(公告)號: | CN111027090B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 王英龍;孫宗錕;舒明雷;趙慧奇;崔煥慶;成曦;平永杰;燕婷 | 申請(專利權)人: | 山東科技大學;山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G16H10/60;G06K9/62 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 支文彬 |
| 地址: | 266590 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 方差 匿名 機制 醫療 數據 隱私 保護 方法 | ||
一種基于異方差差分和K?匿名機制的醫療數據隱私保護方法,通過引入差分隱私保護改善了K?anonymity弱保護性的缺點,增強了數據的安全性;同時利用CART決策樹計算出的各屬性權重對不同屬性進行異方差加噪,給予對最終分類結果影響力小的屬性大噪音,給予對最終分類結果影響力大的屬性小噪音,改變了傳統統一加噪的方式,增強了數據的可用性;最后加入深度神經網絡使得其數據可用性有了直觀的展示。
技術領域
本發明涉及數據隱私及深度學習技術領域,具體涉及一種基于異方差差分和K-匿名機制的醫療數據隱私保護方法。
背景技術
智能醫療空前火熱,醫療數據得到高價值的利用,同時由于醫療數據的價值,針對醫療數據的攻擊方式和數量都大幅度增加,為了保護醫療數據不泄露個人隱私,在淘汰了擁有弱攻擊模型的K-匿名等技術后,差分隱私保護進入人們的視野,它定義了強有力的攻擊模型,增加了數據隱私安全的同時卻降低了數據的可用性,如何在保證數據隱私安全的前提下保證數據的可用性成為一大焦點。同時因為醫療數據涉及過多隱私,處理不妥就進行數據發布會使得數據中包含的個人隱私信息大量泄漏,所以針對醫療數據發布的技術少之甚少,也使得開源的醫療數據庫稀少,無法做到共享數據、共同研究。
發明內容
本發明為了克服以上技術的不足,提供了一種解決醫療數據隱私安全性和可用性之間的平衡,和醫療數據在保證隱私安全的情況下發布的基于異方差差分和K-匿名機制的醫療數據隱私保護方法。
本發明克服其技術問題所采用的技術方案是:
一種基于異方差差分和K-匿名機制的醫療數據隱私保護方法,包括如下步驟:
a)處理醫療數據,將醫療數據中的數據標識符刪除,把醫療數據中的離散屬性用固定整數表示,將醫療數據全部數字化后得到原始醫療數據D’;
b)將原始醫療數據D’作為訓練數據,利用python的scikit-learn庫,構建CART決策樹,通過pydot庫將生成的決策樹導出為dot文件,根據導出的dot文件計算CART決策樹的樹深度m,初始化CART決策樹權重,CART決策樹的第y層權重為m-y,最后一層權重為0,原始醫療數據D’中具有n個屬性類型通過x1,x2,x3...xn,根據各類屬性所在的CART決策樹中的層數計算n個屬性類型x1,x2,x3...xn所占初始權重X1,X2,X3...Xn;
c)根據公式將初始權重X1,X2,X3...Xn進行歸一化,得到各屬性類型的最終權重,式中min(X)為初始權重X1,X2,X3...Xn中的最小值,max(X)為初始權重X1,X2,X3...Xn中的最大值;
d)用戶自定義K-anonymity機制的隱私參數K,將原始醫療數據D’中除標簽外所有離散屬性進行泛化處理,其中泛化處理的步驟為;
d-1)創建空的待泛化隊列W,將原始醫療數據D’中除標簽外所有離散屬性加入待泛化隊列W;
d-2)從待泛化隊列W中選取一個待泛化的屬性,依據選取的待泛化的屬性對原始醫療數據D’進行屬性泛化分裂,得到新的屬性值組合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學;山東省計算中心(國家超級計算濟南中心),未經山東科技大學;山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811206205.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于均力免震法的玉米秸稈還田機
- 下一篇:一種多功能鄉村建設監測系統





