[發明專利]一種具有差分隱私的安全多方k-means聚類方法有效
| 申請號: | 202110101184.0 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112765664B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 張恩;趙樂;李會敏;姬聰敏;陳宛楨 | 申請(專利權)人: | 河南師范大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06K9/62 |
| 代理公司: | 北京華際知識產權代理有限公司 11676 | 代理人: | 曹書華 |
| 地址: | 453007 河南省新*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 具有 隱私 安全 多方 means 方法 | ||
1.一種具有差分隱私的安全多方k-means聚類方法,其特征在于:存在m個參與方U1,U2,…,Um,各個參與方Ui有輸入數據集Di,其中Di=di,1,…,di,l,i∈{1,…,m},添加噪聲采用的兩個差分隱私預算分別為ε1,ε2,首先初始化聚類中心,每個參與者Ui接收添加噪聲之后的聚類中心{C1,1,…,C1,k},如果相鄰兩次聚類中心之間的距離和η大于閾值則繼續迭代,參與者Ui計算出數據點px,px∈D與各個聚類中心Cj(1≤j≤k)的歐幾里得距離,得到數據點px與聚類中心Cj的距離最小,則把數據點px統計到Oj集合中,統計出Oj集合中的數據點數目Numi,j,以及數據點屬性和Sumi,j,為保護聚類中心的隱私,參與方Ui產生隨機數ai.j,gi.j,并把ai.j,gi.j發送至主機S1,把Sumi,j-ai,j,Numi,j-gi,j發送至主機S2,主機S1將從所有用戶接收到的隨機數ai.j,gi.j進行累加,得到第j個聚類對應的隨機數和,分別為主機S2將從所有用戶接收到的Sumi,j-ai,j,Numi,j-gi,j進行累加,分別為主機S1,S2分別根據差分隱私預算ε1,ε2,產生噪聲bz,j,gz,j,對主機S1,S2計算的Aj,Vj,Bj,Wj進行隱私保護,同時主機S1,S2利用混淆電路進行聚類中心更新得到新的聚類中心Cz,j(Cz,j為第z次迭代產生的聚類中心),每個用戶通過判斷新的聚類中心與上次迭代求出的聚類中心之間的距離η,如果η大于閾值則執行下次迭代,否則返回最終的聚類中心Cz,1,…,Cz,k;
在初始化階段,參數設置:m個參與方U1,U2,…,Um,每個參與方Ui有數據集Di,其中每個數據集包含的數據表示為Di=di,1,…,di,l,i={1,…,m},ε1,ε2分別是添加噪聲采用的兩個差分隱私預算,k是聚類的個數,所有參與者:U1,U2,…,Um執行下列步驟:
a.如果參與方的個數m小于聚類分類個數k,則每個參與方Ui從各自所擁有的數據集Di中選擇個數據點作為前個初始聚類中心然后再隨機選擇個參與方,每個選中的參與方各自從他們的數據集Di中隨機選取一個數據點作為后個初始聚類中心如果參與方的個數m大于或等于聚類個數k,則隨機選擇k個參與者,每個選中的參與方各自從他們的數據集Di中隨機選取一個數據點作為初始聚類中心;
b.參與方產生與聚類中心對應的隨機數{a1,…,ak},并將隨機數{a1,…,ak}發送至主機S1,將{c1-a1,…,ck-ak}發送到主機S2;
c.主機S1,S2分別以差分隱私預算分別為ε1,ε2為{a1,…,ak}和{c1-a1,…,ck-ak}生成對應的Laplace噪聲{b1,…,bk},{g1,…,gk},主機S1,S2用混淆電路計算C1,i=(ci-ai)+ai+bi+gi,i={1,…,k};
d.每個用戶Ui接收添加噪聲之后的聚類中心{C1,1,…,C1,k};
在迭代階段,參數設置:m個參與方U1,U2,…,Um,每個參與方Ui擁有數據集Di,其中px表示數據集Di中的數據點,記作px∈Di,ε1,ε2分別是添加噪聲采用的兩個差分隱私預算,k是聚類個數,O1,O2,…,Ok是k個聚類集合,閾值η是距離參數,迭代參數為z,Sumi,j,Numi,j分別為第i次迭代中聚類Oj集合中數據點屬性之和以及數據點數目之和,所有參與者:U1,U2,…,Um執行下列步驟:
A.判斷距離參數η與閾值的大小關系,如果則迭代次數z=z+1;
B.計算參與者中的所有數據點到各個聚類中心的距離||px-Cz,j||,px∈Di,j={1,…,k},如果||px-Cz,j||≤||px-Cz,v||,px∈Di,1≤v≤k則把數據劃分到聚類Oj,統計出聚類Oj集合中的數據點數目Numi,j=|Oj|,以及聚類Oj集合中數據點屬性和為保護聚類中心的隱私,參與方Ui產生隨機數ai.j,gi.j,并把ai.j,gi.j發送至主機S1,把Sumi,j-ai,j,Numi,j-gi,j發送至主機S2;
C.主機S1將從所有用戶接收到的隨機數ai.j,gi.j進行累加,得到第j個聚類對應的隨機數和,分別為主機S1根據差分隱私預算ε1,為Aj,Vj產生噪聲
D.主機S2將從所有用戶接收到的Sumi,j-ai,j,Numi,j-gi,j進行累加,分別為主機S2分別根據差分隱私預算ε2,為Bj,Wj產生噪聲達到對Bj,Wj的隱私保護;
E.主機S1,S2利用混淆電路計算每個用戶令進行聚類中心更新,并計算兩次迭代之間聚類中心的距離如果則輸出最終的聚類中心Cz,1,…,Cz,k,否則返回步驟a。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南師范大學,未經河南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110101184.0/1.html,轉載請聲明來源鉆瓜專利網。





