[發(fā)明專利]一種隱私數(shù)據(jù)的清洗方法有效
| 申請?zhí)枺?/td> | 202011453316.8 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112464289B | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設計)人: | 吳曉鸰;胡慶鵬;胡可;凌捷 | 申請(專利權)人: | 廣東工業(yè)大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06F16/215;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 隱私 數(shù)據(jù) 清洗 方法 | ||
本發(fā)明提供一種隱私數(shù)據(jù)的清洗方法,包括以下步驟:S1:從數(shù)據(jù)所有方中獲取隱私數(shù)據(jù),并對隱私數(shù)據(jù)進行預處理;S2:形成第一缺失數(shù)據(jù)集;形成無缺失數(shù)據(jù)集;S3:在第一缺失數(shù)據(jù)集中,形成第二缺失數(shù)據(jù)集,形成異常數(shù)據(jù)集;S4:利用數(shù)據(jù)挖掘算法構建數(shù)據(jù)填充預測模型,并利用數(shù)據(jù)填充預測模型對第二缺失數(shù)據(jù)集中的各項屬性數(shù)據(jù)進行缺失值預測和填充,從而得到已填充好的數(shù)據(jù)集;S5:將已填充好的數(shù)據(jù)集與無缺失數(shù)據(jù)集進行合并,得到合并數(shù)據(jù)集,并將合并數(shù)據(jù)集與異常數(shù)據(jù)集發(fā)送回數(shù)據(jù)所有方,完成對隱私數(shù)據(jù)的清洗。本發(fā)明提供一種隱私數(shù)據(jù)的清洗方法,解決了現(xiàn)有的數(shù)據(jù)清洗方法不能對隱私數(shù)據(jù)進行清洗的問題。
技術領域
本發(fā)明涉及隱私數(shù)據(jù)處理技術領域,更具體的,涉及一種隱私數(shù)據(jù)的清洗方法。
背景技術
在數(shù)據(jù)挖掘產(chǎn)生財富的同時,隨之產(chǎn)生了隱私泄露的問題。數(shù)據(jù)挖掘確實在深層次的趨勢指導應用中發(fā)揮了積極的作用,但與此同時也帶來了諸多問題。比如對于金融交易、醫(yī)療記錄和網(wǎng)絡通信等數(shù)據(jù),在挖掘的過程中很可能會引發(fā)敏感信息的泄露。
在數(shù)據(jù)挖掘領域,隱私可以被劃分為兩類:一類隱私是原始數(shù)據(jù)本身所包含的敏感信息。由于傳統(tǒng)的數(shù)據(jù)挖掘技術是基于未加密過的原始數(shù)據(jù)來進行的,也就是說必須將包含個人或企業(yè)隱私的原始數(shù)據(jù)交給數(shù)據(jù)挖掘者才能挖掘出有用的知識,如個人的家庭電話、銀行賬號、財產(chǎn)狀況等信息,這些信息一旦泄露的活,極可能會對個人的生活產(chǎn)生不良影響。另一類隱私是原始數(shù)據(jù)所隱含的敏感知識,如某公司優(yōu)質(zhì)客戶的行為特征等規(guī)則,這些知識如果被別有用心的人非法獲得,將會嚴重影響企業(yè)的核心競爭力。
但是,現(xiàn)有的數(shù)據(jù)清洗方法是針對源數(shù)據(jù)進行數(shù)據(jù)清洗,需要知道數(shù)據(jù)字段的含義和數(shù)據(jù)值,不能對隱私數(shù)據(jù)進行清洗。
現(xiàn)有技術中,如2020年7月3日授權的中國專利,基于隱私保護和安全多方計算的數(shù)據(jù)鏈接方法,公告號為CN110609831B,采用一種改進的k-means分類方法對本地數(shù)據(jù)進行分塊,防止用戶敏感信息被敵手獲取,但無法填補隱私數(shù)據(jù)的缺失值。
發(fā)明內(nèi)容
本發(fā)明為克服現(xiàn)有的數(shù)據(jù)清洗方法不能對隱私數(shù)據(jù)進行清洗的技術缺陷,提供一種隱私數(shù)據(jù)的清洗方法。
為解決上述技術問題,本發(fā)明的技術方案如下:
一種隱私數(shù)據(jù)的清洗方法,包括以下步驟:
S1:從數(shù)據(jù)所有方中獲取隱私數(shù)據(jù),并對隱私數(shù)據(jù)進行預處理;
所述隱私數(shù)據(jù)包括若干項屬性數(shù)據(jù);
S2:將隱私數(shù)據(jù)中各項具有缺失值的屬性數(shù)據(jù)歸類形成第一缺失數(shù)據(jù)集;
將隱私數(shù)據(jù)中各項不具有缺失值的屬性數(shù)據(jù)歸類形成無缺失數(shù)據(jù)集;
S3:在第一缺失數(shù)據(jù)集中,將屬性數(shù)據(jù)的正常數(shù)據(jù)值歸類形成第二缺失數(shù)據(jù)集,將屬性數(shù)據(jù)的異常數(shù)據(jù)值歸類形成異常數(shù)據(jù)集;
S4:利用數(shù)據(jù)挖掘算法構建數(shù)據(jù)填充預測模型,并利用數(shù)據(jù)填充預測模型對第二缺失數(shù)據(jù)集中的各項屬性數(shù)據(jù)進行缺失值預測和填充,從而得到已填充好的數(shù)據(jù)集;
S5:將已填充好的數(shù)據(jù)集與無缺失數(shù)據(jù)集進行合并,得到合并數(shù)據(jù)集,并將合并數(shù)據(jù)集與異常數(shù)據(jù)集發(fā)送回數(shù)據(jù)所有方,完成對隱私數(shù)據(jù)的清洗。
優(yōu)選的,所述隱私數(shù)據(jù)還包括數(shù)據(jù)項標識,所述數(shù)據(jù)項標識用于唯一確定一項屬性數(shù)據(jù)。
優(yōu)選的,所述隱私數(shù)據(jù)由數(shù)據(jù)所有方對其進行加密,并由數(shù)據(jù)所有方對其各項屬性數(shù)據(jù)進行標識,從而分別說明其各項屬性數(shù)據(jù)是分類數(shù)據(jù)、連續(xù)型數(shù)據(jù)還是類標號;
其中,
對于分類數(shù)據(jù),還包括標識出有序分類數(shù)據(jù)和無序分類數(shù)據(jù);
對于連續(xù)型數(shù)據(jù),還包括根據(jù)數(shù)據(jù)項標識對每項連續(xù)型數(shù)據(jù)進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業(yè)大學,未經(jīng)廣東工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011453316.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





