[發明專利]一種基于MapReduce的分布式數據匿名處理方法有效
| 申請號: | 201710030621.8 | 申請日: | 2017-01-16 |
| 公開(公告)號: | CN106599726B | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 黃凱;張啟亮 | 申請(專利權)人: | 江蘇徐工信息技術股份有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06F21/57 |
| 代理公司: | 徐州市三聯專利事務所 32220 | 代理人: | 劉囝 |
| 地址: | 221000 江蘇省徐*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 分布式 數據 匿名 處理 方法 | ||
本發明公開一種基于MapReduce的分布式數據匿名處理方法,包括服務器端和計算機終端,服務器端內存儲有數據原表,對數據進行全域泛化,給出可能滿足k?匿名的泛化格;服務器端利用二分法分配給各計算機終端計算節點;各計算機終端并行進行計算,將計算情況向服務器端返回數值;若返回值表示不滿足k?匿名,服務器端則向計算機終端發送一個利用二分法確定的子孫節點;反之,服務器端則向計算機發送一個利用二分法確定的祖先節點;各個計算機終端根據服務器端給出新的節點再次計算,直至找到所有滿足k?匿名的節點。本發明解決了數據爆炸式增長與現今服務器存儲和計算能力不足的矛盾,提高了海量數據處理的效率。
技術領域
本發明涉及一種基于MapReduce的分布式數據匿名處理方法,屬于數據處理技術領域。
背景技術
由于知識決策、信息共享、科學研究的需求,數據擁有者需要將數據對外發布。為了減少數據發布過程中隱私泄露的可能性,數據擁有者有必要在發布前對數據進行隱私保護的相關處理。
目前,Sweeney和Samarati等人提出了k-anonymity隱私保護模型。k-anonymity隱私保護模型能夠避免連接攻擊發生,對隱私數據信息起到有效的防護作用,但是對于敏感屬性信息并沒有采取有效的防護手段,仍然存在著隱私數據信息泄漏的風險。在發生同質攻擊、背景知識攻擊、相似性攻擊等情況下,k-anonymity隱私保護模型并不能有效地保護敏感屬性信息的安全。
k-anonymity模型作為現今研究最為廣泛的匿名模型,近年來不斷有學者提出各種算法來實現或者改進k-anonymity隱私模型。Dtafly算法首先統計出每個準標識符屬性值出現的次數,然后泛化相同屬性值出現次數小于k的屬性值,最終使得每個準標識符均滿足k-anonymity算法的要求。MinGen最小泛化算法目的在于獲得最小信息損失量的泛化結果,它采用完全搜索的方式選出每一步的最優泛化結果,直到所有的數據都滿足k-anonymity模型。Incognito算法首先構建包含全域泛化方案的泛化格,然后根據自底向上原則對原始數據進行泛化,使得數據滿足k-anonymity模型。Mondrian算法提出了多維k-anonymity模型的概念。
以上提出的隱私模型都是基于單機模式下,它們在處理大數據的隱私保護方面存在著低效率的缺陷。現今流行的隱私保護算法大多都是在單機模式下進行研究的,然而隨著大數據時代的來臨,這些算法在處理海量數據方面的效率不容樂觀。
雖然現今已經有不少學者針對這一缺點提出了許多解決方案,如:Roy等人提出了一個名為Airavat的基于MapReduce的系統,它是強制訪控制和差分隱私的集成。Blass等人提出了一個名為PRISM的隱私保護方案,它以Hadoop平臺的MapReduce分布式編程模型為基礎來執行對加密數據集的文字搜索。Ko等人提出了一個名為HybrEx的MapReduce模型,它提出用一個私有云來處理敏感和隱私數據,然后由其他人安全地擴展到公共云上。但在全域匿名方面還沒有一個可行的方案。
發明內容
針對上述現有技術存在的問題,本發明提供一種基于MapReduce的分布式數據匿名處理方法,可以利用多計算機終端協作的優勢來實現海量數據的匿名化處理,能解決數據爆炸式增長與現今服務器存儲和計算能力不足的矛盾,提高海量數據處理的效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇徐工信息技術股份有限公司,未經江蘇徐工信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710030621.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





