[發明專利]基于OPTICS聚類的醫療數據異方差差分隱私保護方法在審
| 申請號: | 201811265704.6 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109388972A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 王英龍;孫宗錕;舒明雷;崔煥慶;趙慧奇;成曦;平永杰;燕婷 | 申請(專利權)人: | 山東科技大學;山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G16H10/60;G06K9/62;G06F16/906 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 支文彬 |
| 地址: | 266590 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 隱私保護 異方 數據可用性 醫療數據 聚類 時間復雜度 可用性 聚類算法 隱私安全 隱私參數 隱私信息 知識背景 單鏈表 上界 指針 保證 攻擊 引入 概率 平衡 成功 | ||
1.一種基于OPTICS聚類的醫療數據異方差差分隱私保護方法,其特征在于,包括:
a)處理醫療數據,將醫療數據中的數據標識符刪除,把醫療數據中的離散屬性用固定整數表示,將醫療數據全部數字化后得到醫療數據D;
b)用戶自定義K-anonymity機制的隱私參數K,將醫療數據D基于準標識符進行泛化處理,得到泛化后的醫療數據集D’;
c)將泛化后的醫療數據集D’作為OPTICS算法的聚類數據,用戶自定義OPTICS算法中的鄰域半徑r及最小個數M,建立OPTICS算法中種子隊列L1、結果隊列L2及指針S,初始化種子隊列L1、結果隊列L2為空隊列,定義指針S;
d)遍歷整個醫療數據集D’,計算醫療數據集D’中每兩個樣本之間的歐幾里得距離,如果醫療數據集D’中某一個點周圍的M個或M個以上的點與其之間的歐幾里得距離小于鄰域半徑r,則該點為核心點,將核心點創建一個對應的單鏈表update,以每個核心點為圓心,將核心點鄰域半徑r內包含的所有點以及各點與核心點之間的可達距離存入該核心點的單鏈表update中;
e)選取醫療數據集D’中但不在結果隊列L2中的一個樣本,設此樣本為樣本點p,將p加入種子隊列L1中,將指針S指向該樣本點p,并執行步驟f),如果醫療數據集D’中所有的樣本點都已存在于結果隊列L2中則執行步驟j);
f)判斷種子隊列L1是否為空,如果為空則返回執行步驟e),如果不為空則執行步驟g);
g)在種子隊列L1中選取指針S指向的樣本點p,如果樣本點p不是核心點,則設置該樣本點的可達距離為undefined,設置完成后執行步驟i),如果樣本點p是核心點,則在樣本點p的單鏈表update中任意選取一該樣本點,設為樣本點q,之后執行步驟h);
h)如果樣本點q對應的樣本不在種子隊列L1隊列內,則把樣本點q對應的樣本以及此時q與p對應樣本之間的可達距離放入種子隊列L1內,之后執行步驟i),如果樣本點q對應的樣本在種子隊列L1隊列內,將種子隊列L1中此樣本對應的可達距離與樣本點q和樣本點p之間的可達距離作比較,若樣本點q和樣本點p之間的可達距離小于種子隊列L1中此樣本對應的可達距離,則將種子隊列L1中此樣本對應的可達距離替換為樣本點q和樣本點p之間的可達距離,執行步驟i);
i)在種子隊列L1刪除指針S對應的樣本點p以及樣本點p在種子隊列L1中對應的可達距離,并將刪除的樣本點p及其在種子隊列L1中記錄的可達距離寫入結果隊列L2中,遍歷種子隊列L1中的所有點,之后遍歷種子隊列L1中的所有點,將指針S指向種子隊列L1中對應的可達距離最小樣本點,并設此樣本點為p,之后返回步驟f);
j)以結果隊列L2中的樣本點的數目作為橫坐標、結果隊列L2中各樣本點對應的已存儲的可達距離為縱坐標,生成可達圖,利用ξ-cluster算法計算得到可達圖中的高頻數據集、低頻數據集以及離散點;;
k)利用公式對高頻數據集進行添加噪聲,利用公式對低頻數據集進行添加噪聲,其中Lap為拉普拉斯噪音,εi為高頻數據的隱私參數,εj為低頻數據的隱私參數,εi:εj=15:1,εi+εj=ε,ε=0.42。
2.根據權利要求1所述的基于OPTICS聚類的醫療數據異方差差分隱私保護方法,其特征在于:步驟b)中泛化處理的步驟包括:
b-1)創建空的待泛化隊列W,將醫療數據D中準標識屬性加入待泛化隊列W;
b-2)從待泛化隊列W中選取一個待泛化的屬性,依據選取的待泛化的屬性對醫療數據D進行屬性泛化分裂,得到新的屬性值組合;
b-3)對泛化分裂得到的新的屬性值組合進行K-anonymity機制驗證,如果每個新的屬性值的數據數目均大于等于隱私參數K,則認為滿足K-anonymity機制,將泛化后的數據保存至醫療數據D,如果每個新的屬性值的數據數目均小于隱私參數K,則認為泛化分裂失敗,將步驟d-2)中選取的待泛化的屬性從待泛化隊列W中刪除;
b-4)重復步驟d-2)和d-3),直至步驟d-2)中待泛化隊列W中待泛化的屬性全部逐一不重復的選取過;
b-5)將泛化后的數據進行取中值處理,保存泛化完的數據為醫療數據集D’。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學;山東省計算中心(國家超級計算濟南中心),未經山東科技大學;山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811265704.6/1.html,轉載請聲明來源鉆瓜專利網。





