[發(fā)明專利]基于輪廓系數(shù)的差分隱私保護(hù)K-means聚類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810264776.2 | 申請(qǐng)日: | 2018-03-28 |
| 公開(公告)號(hào): | CN108549904A | 公開(公告)日: | 2018-09-18 |
| 發(fā)明(設(shè)計(jì))人: | 張亞玲;劉娜 | 申請(qǐng)(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06F17/30 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 韓玙 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聚類中心 輪廓系數(shù) 聚類 記錄 屬性向量 隱私保護(hù) 數(shù)據(jù)集 集合 分布式環(huán)境 歸一化處理 步驟實(shí)施 聚類分析 隨機(jī)噪聲 信息泄露 大數(shù)據(jù) 記錄數(shù) 迭代 算法 | ||
本發(fā)明公開了一種基于輪廓系數(shù)的差分隱私保護(hù)K?means聚類方法,具體按照以下步驟實(shí)施:步驟1、對(duì)數(shù)據(jù)集D中的所有數(shù)據(jù)做歸一化處理;步驟2、將具有N條記錄的數(shù)據(jù)集D平均分為K個(gè)集合;步驟3、對(duì)于集合Ck求各記錄的屬性向量之和及記錄數(shù)步驟4、計(jì)算每個(gè)記錄ai到k個(gè)聚類中心uk的距離;步驟5、計(jì)算該聚類的記錄數(shù)量num和各記錄的屬性向量之和sum;步驟6、計(jì)算k個(gè)聚類的輪廓系數(shù)Sk,并對(duì)numk和sumk添加隨機(jī)噪聲步驟7、計(jì)算新的聚類中心;步驟8、計(jì)算新的聚類中心和上次迭代的聚類中心的距離,若小于閾值,算法結(jié)束,本發(fā)明解決了現(xiàn)有技術(shù)中存在的分布式環(huán)境下大數(shù)據(jù)聚類分析中信息泄露嚴(yán)重的問題。
技術(shù)領(lǐng)域
本發(fā)明屬于信息安全技術(shù)領(lǐng)域,具體涉及一種基于輪廓系數(shù)的差分隱私保護(hù)K-means聚類方法。
背景技術(shù)
數(shù)據(jù)挖掘作為當(dāng)前大數(shù)據(jù)環(huán)境下獲取信息的重要方法,通過統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和模式識(shí)別等多種方法來獲取有用的信息,這些信息廣泛應(yīng)用于商務(wù)管理、生產(chǎn)控制、市場分析和科學(xué)研究等領(lǐng)域。聚類分析是一種典型的數(shù)據(jù)挖掘方法,其主要思想是將數(shù)據(jù)聚集為若干類,使得各個(gè)聚類之間的差別最大,聚類內(nèi)的數(shù)據(jù)差別最小。K-means算法是一種思想簡單,聚類收斂速度快的,被廣泛應(yīng)用于各個(gè)領(lǐng)域的聚類算法。
在大數(shù)據(jù)聚類分析中,敏感信息的隱私泄露問題成為此類應(yīng)用的一個(gè)嚴(yán)重障礙。如何高效的實(shí)現(xiàn)數(shù)據(jù)挖掘,同時(shí)保護(hù)個(gè)體的隱私,就是隱私保護(hù)的數(shù)據(jù)挖掘算法要解決的問題。差分隱私保護(hù)是2006年Dwork首次提出的,能適應(yīng)于任意背景知識(shí)下的攻擊技術(shù),并且因?yàn)樗皇軘?shù)據(jù)集的大小限制而受到關(guān)注。在K-means聚類分析中,通過差分隱私保護(hù)技術(shù)能夠有效的減少個(gè)體隱私的泄露,具有差分隱私保護(hù)的K-means聚類算法具有重要的實(shí)際應(yīng)用意義。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于輪廓系數(shù)的差分隱私保護(hù)K-means聚類方法,解決了現(xiàn)有技術(shù)中存在的分布式環(huán)境下大數(shù)據(jù)聚類分析中信息泄露嚴(yán)重的問題。
本發(fā)明所采用的技術(shù)方案是,基于輪廓系數(shù)的差分隱私保護(hù)K-means聚類方法,其特征在于,具體按照以下步驟實(shí)施:
步驟1、將數(shù)據(jù)集分為M個(gè)大小相同的數(shù)據(jù)片分別執(zhí)行Map任務(wù)和Reduce任務(wù),假設(shè)數(shù)據(jù)集為D,數(shù)據(jù)集中的總記錄數(shù)為N,記錄記為ai,其中,1≤i≤N,記錄的維數(shù)為d,聚類個(gè)數(shù)為K,第k個(gè)中心點(diǎn)記為uk,1≤k≤K,隱私預(yù)算ε,第t次迭代中第k個(gè)聚類的隨機(jī)噪聲為t為迭代次數(shù);
步驟2、對(duì)數(shù)據(jù)集D中的所有數(shù)據(jù)做歸一化處理;
步驟3、將有N條記錄的數(shù)據(jù)集D平均分為K個(gè)集合Ck,1≤k≤K,集合Ck有N/K條數(shù)據(jù);
步驟4、對(duì)于集合Ck求各記錄的屬性向量之和及記錄數(shù)分別對(duì)和添加隨機(jī)噪聲得到和計(jì)算初始中心點(diǎn)
步驟5、計(jì)算每個(gè)記錄ai到k個(gè)聚類中心uk的距離;
步驟6、計(jì)算該聚類的記錄數(shù)量num和各記錄的屬性向量之和sum;
步驟7、計(jì)算第k個(gè)聚類的輪廓系數(shù)Sk,并對(duì)numk和sumk添加隨機(jī)噪聲
步驟8、計(jì)算新的聚類中心
步驟9、計(jì)算新的聚類中心和上次迭代的聚類中心的距離,若小于閾值,則結(jié)束,輸出聚類集合,否則返回步驟5。
本發(fā)明的特點(diǎn)還在于,
步驟2中做歸一化處理時(shí)所有的點(diǎn)分布到[0,1]d空間中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810264776.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種數(shù)據(jù)聚類方法和裝置
- 人臉聚類方法、裝置、系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種鞋底花紋圖像的特征弱相關(guān)聚類方法
- 數(shù)據(jù)聚類方法及裝置
- 數(shù)據(jù)聚類方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 人臉聚類方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 視頻聚類方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 向量聚類訓(xùn)練方法及裝置
- 一種客服對(duì)話語料聚類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)





