[發(fā)明專利]一種分布式環(huán)境下隱私保護的關(guān)聯(lián)規(guī)則挖掘方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810832113.6 | 申請日: | 2018-07-26 |
| 公開(公告)號: | CN108920714B | 公開(公告)日: | 2021-10-01 |
| 發(fā)明(設(shè)計)人: | 周奕雯;馮家銘;胡煜宗;黃征;薛昊;連慧娟 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/2458 |
| 代理公司: | 上海旭誠知識產(chǎn)權(quán)代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 環(huán)境 隱私 保護 關(guān)聯(lián) 規(guī)則 挖掘 方法 系統(tǒng) | ||
本發(fā)明公開了一種支持分布式環(huán)境下隱私保護的關(guān)聯(lián)規(guī)則挖掘方法和系統(tǒng),涉及關(guān)聯(lián)規(guī)則挖掘領(lǐng)域,包括以下步驟:可信機構(gòu)將一個共享密鑰發(fā)送給用戶;用戶將需要進行關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)進行加密后,發(fā)送給計算集群;計算集群根據(jù)用戶發(fā)送的關(guān)聯(lián)規(guī)則挖掘需求進行計算和分析,再將結(jié)果返回給用戶;用戶得到返回結(jié)果后,利用共享密鑰進行解密從而得到真實的關(guān)聯(lián)規(guī)則。本發(fā)明中計算集群對用戶上傳的數(shù)據(jù)無法進行理解,但用戶指定關(guān)聯(lián)規(guī)則后卻能借用計算集群的計算資源進行數(shù)據(jù)挖掘,且挖掘結(jié)果對計算集群不可見,外部攻擊者也無法獲取信息,從而完成了基于隱私保護的關(guān)聯(lián)規(guī)則挖掘;而計算集群由Scala分布式計算框架搭建,容錯率和效率都較高。
技術(shù)領(lǐng)域
本發(fā)明涉及關(guān)聯(lián)規(guī)則挖掘領(lǐng)域,尤其涉及一種支持分布式環(huán)境下隱私保護的關(guān)聯(lián)規(guī)則挖掘方法和系統(tǒng)。
背景技術(shù)
在當前互聯(lián)網(wǎng)時代,從用戶數(shù)據(jù)中挖據(jù)出企業(yè)或者第三方感興趣的、有潛在價值的信息與規(guī)則十分重要。數(shù)據(jù)挖掘應(yīng)運而生,它能夠幫助捕捉到大量數(shù)據(jù)中無法直接觀測得到的信息,并創(chuàng)造更多價值。而關(guān)聯(lián)規(guī)則挖掘就是其中一種較為常見的算法,它能夠從大量的數(shù)據(jù)項中捕捉隱藏關(guān)系。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘最早由Agrawal等人在1993年針對“市場購物籃問題”所提出,了解并分析了顧客的消費行為,從而挖掘出一次交易中兩個不同商品被同時購買的可能性。例如購買兒童尿布的男性顧客常常會順帶購買一些啤酒,若是將兒童尿布與啤酒放在較為接近的地方就能提升更多銷售額。這就是關(guān)聯(lián)規(guī)則分析的一個典型案例。
而隨著這些年數(shù)據(jù)爆發(fā)式地增長,計算資源成為數(shù)據(jù)挖掘的瓶頸之一。為了突破瓶頸,分布式數(shù)據(jù)源環(huán)境下的云計算成了數(shù)據(jù)挖掘的完美平臺。但是,在數(shù)據(jù)收集以及挖掘過程中,存在許多安全隱患。過去由于缺乏相關(guān)專業(yè)知識和計算資源,企業(yè)或者數(shù)據(jù)的所有者通常會將用戶數(shù)據(jù)外包給第三方處理。該場景下,數(shù)據(jù)保存于服務(wù)器,服務(wù)器可直接獲取數(shù)據(jù)內(nèi)容,用戶的隱私得不到保障;其次,數(shù)據(jù)所有者為了從大量用戶數(shù)據(jù)中進行關(guān)聯(lián)規(guī)則挖掘而把數(shù)據(jù)交給第三方時,第三方也能獲得挖掘結(jié)果。這就導(dǎo)致企業(yè)私有財產(chǎn)(數(shù)據(jù)庫中的數(shù)據(jù)和關(guān)聯(lián)規(guī)則的挖掘結(jié)果)的泄露,用戶數(shù)據(jù)隱私和企業(yè)私有財產(chǎn)受到威脅,特別是當服務(wù)提供者有意或無意泄露數(shù)據(jù)時,將面臨巨大的風(fēng)險。
在當前環(huán)境下能夠提供隱私保護功能的關(guān)聯(lián)規(guī)則挖掘算法主要有以下兩類:
1)查詢限制:對數(shù)據(jù)進行抽樣、隱藏、劃分等處理,基于不完整的數(shù)據(jù)通過概率統(tǒng)計等方式進行挖掘;
2)數(shù)據(jù)干擾:對數(shù)據(jù)進行離散變換、增加干擾噪聲從而保護原數(shù)據(jù),最后基于增加了干擾的數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘。
當前網(wǎng)絡(luò)環(huán)境下用戶的數(shù)據(jù)通常需要將個人數(shù)據(jù)發(fā)送到云端,而各種操作也需要通過服務(wù)提供商。計算集群中直接保存的用戶數(shù)據(jù)存在被泄露的可能。
但加密后的數(shù)據(jù)通常無法直接進行關(guān)聯(lián)規(guī)則挖掘,如何在保證用戶數(shù)據(jù)不可見的同時滿足關(guān)聯(lián)規(guī)則挖掘的需求便是問題所在。過去服務(wù)提供者由于缺乏專業(yè)知識或者計算資源,會將數(shù)據(jù)挖掘部分外包給第三方,但現(xiàn)在的網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)存儲和計算無需交給第三方,這也是要改進的部分。
因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種支持分布式環(huán)境下隱私保護的關(guān)聯(lián)規(guī)則挖掘方法和系統(tǒng)。無需將數(shù)據(jù)存儲和計算交給第三方,在保證用戶數(shù)據(jù)不可見的同時實現(xiàn)關(guān)聯(lián)規(guī)則挖掘。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是如何從用戶數(shù)據(jù)挖掘出有效信息且保證隱私不會泄露。
為實現(xiàn)上述目的,本發(fā)明提供了一種支持分布式環(huán)境下隱私保護的關(guān)聯(lián)規(guī)則挖掘方法,包括如下步驟:
步驟一,可信機構(gòu)在執(zhí)行初期選擇兩個大素數(shù)p,α作為安全參數(shù),并將一個共享密鑰s發(fā)送所有用戶;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810832113.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





