[發明專利]基于輪廓系數的差分隱私保護K-means聚類方法在審
| 申請號: | 201810264776.2 | 申請日: | 2018-03-28 |
| 公開(公告)號: | CN108549904A | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 張亞玲;劉娜 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/30 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 韓玙 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類中心 輪廓系數 聚類 記錄 屬性向量 隱私保護 數據集 集合 分布式環境 歸一化處理 步驟實施 聚類分析 隨機噪聲 信息泄露 大數據 記錄數 迭代 算法 | ||
1.基于輪廓系數的差分隱私保護K-means聚類方法,其特征在于,具體按照以下步驟實施:
步驟1、將數據集分為M個大小相同的數據片分別執行Map任務和Reduce任務,假設數據集為D,數據集中的總記錄數為N,記錄記為ai,其中,1≤i≤N,記錄的維數為d,聚類個數為K,第k個中心點記為uk,1≤k≤K,隱私預算ε,第t次迭代中第k個聚類的隨機噪聲為t為迭代次數;
步驟2、對數據集D中的所有數據做歸一化處理;
步驟3、將有N條記錄的數據集D平均分為K個集合Ck,1≤k≤K,集合Ck有N/K條數據;
步驟4、對于集合Ck求各記錄的屬性向量之和及記錄數分別對和添加隨機噪聲得到和計算初始中心點
步驟5、計算每個記錄ai到k個聚類中心uk的距離;
步驟6、計算該聚類的記錄數量num和各記錄的屬性向量之和sum;
步驟7、計算第k個聚類的輪廓系數Sk,并對numk和sumk添加隨機噪聲
步驟8、計算新的聚類中心
步驟9、計算新的聚類中心和上次迭代的聚類中心的距離,若小于閾值,則結束,輸出聚類集合,否則返回步驟5。
2.根據權利要求1所述的基于輪廓系數的差分隱私保護K-means聚類方法,其特征在于,所述步驟2中做歸一化處理時所有的點分布到[0,1]d空間中。
3.根據權利要求1所述的基于輪廓系數的差分隱私保護K-means聚類方法,其特征在于,所述步驟5具體為:主任務將所有數據記錄平均分為M數據片,并指派M個分任務執行Map操作,K個分任務執行Reduce操作;Map分任務接收包含N/M個記錄的數據片,運行Map函數,計算每個記錄ai到k個聚類中心uk的距離,并記錄距離最小的聚類中心uk,每條記錄最后以<key,value>的形式輸出。
4.根據權利要求3所述的基于輪廓系數的差分隱私保護K-means聚類方法,其特征在于,所述步驟6具體為:Reduce分任務接收所有同屬于一個聚類中心的<key,value>對,運行Reduce函數:計算該聚類的記錄數量num和各記錄的屬性向量之和sum;對于第K個子集計算聚類中的記錄數量numk和聚類內的各屬性向量之和sumk。
5.根據權利要求4所述的基于輪廓系數的差分隱私保護K-means聚類方法,其特征在于,所述步驟7中,對于k個聚類Sk,找出k個聚類中的最小值minSk,第t次迭代中第k個簇的隱私預算大小為隨機噪聲
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810264776.2/1.html,轉載請聲明來源鉆瓜專利網。





