[發明專利]一種分類數據挖掘系統中數據隱私保護方法有效
| 申請號: | 201510061632.3 | 申請日: | 2015-02-05 |
| 公開(公告)號: | CN104601596B | 公開(公告)日: | 2017-09-22 |
| 發明(設計)人: | 任勛益;袁武 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L9/06 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 許方 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分類 數據 挖掘 系統 隱私 保護 方法 | ||
技術領域
本發明涉及一種分類數據挖掘系統中數據隱私保護方法。
背景技術
數據挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。隨著數據挖掘和知識發現技術的發展,數據挖掘和知識發現的研究已經涵蓋數據庫、人工智能和數理統計三大學科的內容。它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策和支持。
由于數據挖掘的諸多優點,它在商業零售、醫療與保險、大數據分析等方面都有較好的應用前景,對數據挖掘技術的研究正成為學術界、商業界和工業界的熱點之一。但是,數據挖掘在為人們提供有益知識的同時,也會直接或間接的泄露參與方的數據隱私,給當事人帶來經濟和其他方面的損失,甚至造成難以估量的影響,這成為數據挖掘不能逃避的問題。因此數據挖掘中的隱私安全問題具有重要意義。
根據數據挖掘實現的不同場景,數據挖掘可分為集中式數據挖掘和分布式的數據挖掘。目前對于集中式的數據挖掘,由于它不涉及通信傳輸和多方參與,目前已經有了比較成熟的隱私保護方案。而在分布式環境中,挖掘環境和實現過程更為復雜,分布式環境中數據挖掘的隱私安全問題主要包括三個方面:(1)保護聚類挖掘參與方的數據隱私;(2)保護關聯規則挖掘參與方的數據隱私;(3)保護分類挖掘中的參與方的數據隱私。目前對前兩個方面的研究已有不少成果,然而對分類挖掘的隱私保護研究還少有人涉及,分布式環境中的多方參與和準誠信的環境,顯然給問題的解決帶來了一定的難度,一般采用的策略主要是使用密碼學的方法,但僅用密碼學的方法是不足夠的,仍然需要結合新的技術、方法來保證分類挖掘中各方的隱私數據不被泄露;對于分布式環境來說,分布式環境包括水平分割數據和垂直分割數據兩種,在垂直劃分的數據集中,同一數據的不同屬性分別存儲在不同的參與方中;在水平劃分的數據集中,數據的所有屬性存儲在同一個參與方中,不同的參與方存儲不同數據的信息。
在網絡世界里,針對網絡中隱私數據的攻擊表現為網絡惡意入侵,網絡惡意入侵的主要過程是發生在分類器生成過程中,如果某個參與方是惡意的,它可能對參與分類挖掘的其他各方進行如下幾種攻擊:①截獲其他參與方的通信數據,分析它們的隱私數據;②利用自己參與計算的便利職務,分析其他各方的隱私數據;③利用自己收到的計算結果,倒推其他參與方的數據隱私等等。
發明內容
針對上述技術問題,本發明所要解決的技術問題是提供一種基于保護隱私的ID3分類模型,采用全同態加密算法的方案,有效實現針對網絡分類數據挖掘過程中隱私數據保護的分類數據挖掘系統中數據隱私保護方法。
本發明為了解決上述技術問題采用以下技術方案:本發明設計了一種分類數據挖掘系統中數據隱私保護方法,其中,系統中處理數據的各個屬性按分布式垂直劃分的方式分配給各個參與方,數據隱私保護方法包括如下步驟:
步驟001.首先,各參與方分別將其隱私數據以密文形式,通過隨機排序方式分布在其對應的隨機數據中;然后,各參與方根據各自對應的隨機數據進行合作計算,分別獲得處理數據中各個屬性的信息熵;
步驟002.通過針對計算過程中計算結果采用加密傳輸的方式,各參與方根據處理數據中各個屬性的信息熵進行合作計算,分別獲得處理數據中各個屬性的信息增益;
步驟003.針對處理數據中各個屬性的信息增益進行比較,獲得最大信息增益所對應的屬性,將該屬性作為最佳分裂屬性,以最佳分裂屬性為節點進行分裂;
步驟004.判斷是否滿足終止分裂條件,是則結束,否則返回步驟001。
作為本發明的一種優選技術方案:所述步驟001之前,初始化,針對處理數據中的屬性預設目標屬性,其余屬性為候選屬性,表示第i個參與方對應系統中所述處理數據中第l個候選屬性中第tl個類別的類別數據,其中,i∈{1,…,I},I為參與方的總數,l∈{1,…,L},L為處理數據中候選屬性的個數,tl為對應處理數據中第l個候選屬性中的第tl個類別,tl∈{1,…,Tl},Tl為處理數據中第l個候選屬性對應的類別的總數;并且,若第i個參與方所對應的各個候選屬性當中不包括第l個候選屬性,則
所述步驟001具體包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510061632.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:清潔環保智能垃圾處理回收再利用系統
- 下一篇:一種垃圾分類回收生態系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





