[發明專利]一種面向關聯規則挖掘的隱私數據保護方法無效
| 申請號: | 201010209518.8 | 申請日: | 2010-06-25 |
| 公開(公告)號: | CN101872361A | 公開(公告)日: | 2010-10-27 |
| 發明(設計)人: | 朱玉全;歐吉順;孫蕾;陳耿 | 申請(專利權)人: | 鎮江金全軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 關聯 規則 挖掘 隱私 數據 保護 方法 | ||
技術領域
本發明涉及數據挖掘中隱私數據的保護技術,具體涉及一種面向關聯規則挖掘的隱私數據保護方法。
背景技術
隨著網絡、數據庫存儲以及高性能處理器等技術的飛速發展,數據庫中存儲的數據呈爆炸式增長。日前,數據庫系統可以很好地實現數據查詢、刪除和統計等功能,OLAP也能較好地進行數據的分析等工作,但這些技術并不支持對數據背后重要信息的挖掘,無法發現數據中隱藏的關系和規則,從而導致出現了”數據爆炸,知識貧乏”的現象。另外,20世紀下半葉發展起來的專家系統,也遇到了“知識獲取”這一瓶頸問題。在此背景下,強有力數據分析工具的需求推動了數據挖掘技術的產生。
數據挖掘技術可以幫助人們從大量的數據中智能地、自動地抽取隱含的、事先未知的,具有潛在價值的知識或信息,它不僅被許多研究人員看作是數據庫系統和機器學習等方面的一個重要研究課題,而且被許多產業界人士看作是一個能帶來巨大回報的重要領域,從數據庫中發現出來的規則和知識可以用在信息管理、查詢響應、決策支持、過程控制等諸多方面。
在數據挖掘產生巨大財富的同時,隨之產生的就是隱私泄露問題,據一份Web用戶的權威調查表明,17%的被調查者表示會拒絕透露涉及到自己隱私的任何信息,27%的被調查者表示會經認真考慮后,決定是否會給予涉及到自己隱私的信息,而56%的被調查者表示,如果數據收集機構或數據使用者可以確保個人隱私信息得到有效保護,他們是可以提供涉及到自己隱私的信息。從上述調查結果可以看出,如果無法保證被調查者的隱私,所收集到的數據往往和真實的數據之間存在很大的差異甚至無法完成數據的收集工作,如果在這些錯誤的數據上進行數據挖掘,那么得到的結果必然是不準確的甚至是完全錯誤的。然而,可喜的是人們并沒有因噎廢食,在數據挖掘能夠提供的益處面前,只要數據采集機構或使用者采取措施來保證個人的隱私,大部分數據擁有著還是愿意提供自己的隱私數據,隱私保護程度的高低將直接關系到是否能夠獲得足夠真實的信息,從而影響到挖掘結果的可靠有用性。因而,如何在數據挖掘的過程中解決好隱私保護的問題已經成為數據挖掘領域中的一個研究熱點,隱私保護數據挖掘技術的研究具有十分重要的理論和現實意義。
在1995年召開的第一屆KDD會議上,基于隱私保護的數據挖掘就成為一個專門的研究主題。1999年,RakeshAgrawal在KDD99上作了一場精彩的有關隱私保護數據挖掘主題演講,并將其作為未來的研究重點之一。自此以后,隱私保護數據挖掘越來越得到人們的高度重視,各種新方法和新技術層出不窮。
隱私保護關聯規則挖掘是隱私保護數據挖掘中最活躍的研究方向之一,一般情況下,它包含兩個方面的問題,一是數據庫中敏感關聯規則的保護,所謂敏感關聯規則是指數據擁有者不愿公開的關聯規則,這些規則的不法使用可能會威脅到數據擁有者的權益。二是隱私數據的保護,隱私數據是指數據擁有者不愿公開的數據項,它可能包括姓名、身份證號、銀行帳號、住址、工資等。本發明專利主要解決第二個問題。對于此問題,目前常用的方法是采取數據干擾技術,即通過數據變換或在數據中增加噪聲等方法來對原始數據進行干擾,關聯規則挖掘是在干擾后的數據集上進行的,因而,該類方法很有可能會影響到關聯規則挖掘結果的可用性和有效性,即有可能挖掘出一些原始數據庫中本來不存在的且有誤導作用的規則,丟失一些原始數據庫中存在的且非常有用的規則,從而失取了關聯規則挖掘本身的價值。其實,隱私數據是相對的,是與載體相關聯的,更換了或脫離了載體,數據就有可能失去其物理意義或敏感性,因此,我們可以通過交換事務之間項目所對應的值來實現隱私數據的保護。
本發明給出了一種基于項目交換技術的隱私數據保護方法,該方法既可以實現對隱私數據的有效保護,又能確保關聯規則挖掘結果的有效可行性。
發明內容
本發明的目的在于針對現有隱私數據保護方法可能會影響到關聯規則挖掘結果的可用性和有效性等問題,提出了一種新穎的面向關聯規則挖掘的隱私數據保護方法,該方法既可以實現對隱私數據的有效保護,同時又不會產生過多的負面影響。
本發明提出的“面向關聯規則挖掘的隱私數據保護方法”包括以下步驟:
(1)隱私數據項的確定
根據數據擁有者的意圖確定要隱藏的隱私數據項。
(2)隱私數據項的修改
對原事務數據庫中的事務進行分組,每k條記錄為一組,不足部分補足。假設原事務數據庫中有n條事務,分組數為m,則每一組對應一個k位數ai,i=1,2,...,m。隱私數據項的修改如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎮江金全軟件有限公司,未經鎮江金全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010209518.8/2.html,轉載請聲明來源鉆瓜專利網。





