[發(fā)明專利]基于敏感數(shù)據(jù)的脫敏方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201910486536.1 | 申請(qǐng)日: | 2019-06-05 |
| 公開(kāi)(公告)號(hào): | CN110188571A | 公開(kāi)(公告)日: | 2019-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 李適季;周蒞濤;施全立;白林;陳天立;張宏偉 | 申請(qǐng)(專利權(quán))人: | 深圳市優(yōu)網(wǎng)科技有限公司 |
| 主分類號(hào): | G06F21/62 | 分類號(hào): | G06F21/62 |
| 代理公司: | 北京酷愛(ài)智慧知識(shí)產(chǎn)權(quán)代理有限公司 11514 | 代理人: | 占麗君 |
| 地址: | 518000 廣東省深圳市南山區(qū)粵海*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 脫敏 替換 算法 匹配 敏感數(shù)據(jù) 數(shù)據(jù)量 閾值時(shí) 變量類型 多數(shù)據(jù)源 靈活配置 預(yù)設(shè) 噪聲 分組 改進(jìn) | ||
本發(fā)明提供的基于敏感數(shù)據(jù)的脫敏方法,獲取待脫敏數(shù)據(jù);當(dāng)待脫敏數(shù)據(jù)的數(shù)據(jù)量滿足k?means算法閾值時(shí),采用k?means改進(jìn)算法對(duì)待脫敏數(shù)據(jù)進(jìn)行分組劃分,并加入Laplace噪聲對(duì)劃分后的待脫敏數(shù)據(jù)進(jìn)行脫敏;當(dāng)待脫敏數(shù)據(jù)的數(shù)據(jù)量滿足匹配替換閾值時(shí),采用匹配替換方法對(duì)待脫敏數(shù)據(jù)進(jìn)行脫敏;其中匹配替換方法包括根據(jù)預(yù)設(shè)的變量類型、以關(guān)鍵字為原則對(duì)待脫敏數(shù)據(jù)進(jìn)行替換。該方法可靈活配置、支持多數(shù)據(jù)源、多種數(shù)據(jù)脫敏算法。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)脫敏技術(shù)領(lǐng)域,具體涉及基于敏感數(shù)據(jù)的脫敏方法及系統(tǒng)。
背景技術(shù)
目前,個(gè)人隱私保護(hù)問(wèn)題己經(jīng)引起了公眾的廣泛關(guān)注,不僅在我國(guó),在歐盟和美國(guó)也有新增立法保護(hù)個(gè)人信息。由此可見(jiàn),如果不能解決由于大數(shù)據(jù)發(fā)布或共享導(dǎo)致的個(gè)人隱私泄露的問(wèn)題,將給相關(guān)數(shù)據(jù)發(fā)布和使用方帶來(lái)嚴(yán)重的法律風(fēng)險(xiǎn),進(jìn)而阻礙大數(shù)據(jù)技術(shù)的應(yīng)用和發(fā)展。
針對(duì)隱私保護(hù)問(wèn)題,Samarati和Sweeney于1998年首次提出了匿名化的概念,為了在數(shù)據(jù)共享過(guò)程中實(shí)現(xiàn)匿名化,最初使用傳統(tǒng)脫敏算法通過(guò)對(duì)數(shù)據(jù)直接進(jìn)行亂序、掩蓋、統(tǒng)一泛化等操作達(dá)到保護(hù)用戶隱私的目的。
泛化是對(duì)數(shù)據(jù)中某個(gè)準(zhǔn)標(biāo)識(shí)屬性,通過(guò)將具體值替換為描述屬性的取值范圍,來(lái)達(dá)到匿名化操作的方法。泛化操作包括值泛化和域泛化。域泛化又稱全域重編碼,以電話號(hào)碼為例,一個(gè)88888888被泛化成8888888*,實(shí)現(xiàn)表達(dá)一個(gè)更大的范圍。以此類推,再被泛化成888888**,直至********。某屬性的值域經(jīng)多次泛化形成的域泛化層次結(jié)構(gòu)被稱為域泛化。泛化層次越高,信息損失越大。值泛化又稱局域重編碼,指的是將原始屬性域中的每個(gè)值直接泛化成一般域中的某一值。值泛化關(guān)系同樣可以決定值泛化層。相比域泛化,值泛化擁有更高的靈活性,可以有效降低泛化帶來(lái)的信息損失。
隱匿,可視為最高級(jí)別的泛化,是指用最一般化的值代替原始值。即為用固定屬性值代替該列的所有屬性值。在數(shù)據(jù)匿名化操作的過(guò)程中,如果一些元組無(wú)法滿足匿名規(guī)則的要求,一般會(huì)采取隱匿操作。被隱匿的屬性值所在記錄可以直接從數(shù)據(jù)表中刪除,或者相應(yīng)屬性值用統(tǒng)一屬性代替,以保持統(tǒng)計(jì)特性。
但是現(xiàn)有的脫敏方法也難以滿足大數(shù)據(jù)背景下的隱私保護(hù)需求。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種基于敏感數(shù)據(jù)的脫敏方法及系統(tǒng),可靈活配置、支持多數(shù)據(jù)源、多種數(shù)據(jù)脫敏算法。
第一方面,一種基于敏感數(shù)據(jù)的脫敏方法,
獲取待脫敏數(shù)據(jù);
當(dāng)待脫敏數(shù)據(jù)的數(shù)據(jù)量滿足k-means算法閾值時(shí),采用k-means改進(jìn)算法對(duì)待脫敏數(shù)據(jù)進(jìn)行分組劃分,并加入Laplace噪聲對(duì)劃分后的待脫敏數(shù)據(jù)進(jìn)行脫敏;
當(dāng)待脫敏數(shù)據(jù)的數(shù)據(jù)量滿足匹配替換閾值時(shí),采用匹配替換方法對(duì)待脫敏數(shù)據(jù)進(jìn)行脫敏;其中匹配替換方法包括根據(jù)預(yù)設(shè)的變量類型、以關(guān)鍵字為原則對(duì)待脫敏數(shù)據(jù)進(jìn)行替換。
優(yōu)選地,所述變量類型包括數(shù)值、字符串、時(shí)間和正則表達(dá)式。
優(yōu)選地,當(dāng)變量類型為數(shù)值時(shí),所述匹配替換方法包括:
提取出所述待脫敏數(shù)據(jù)的數(shù)字符號(hào);
計(jì)算所述數(shù)字符號(hào)的數(shù)值長(zhǎng)度,并進(jìn)行超限處理,以獲得初始數(shù)值;
將所述初始數(shù)值轉(zhuǎn)化為字符串;
根據(jù)所述數(shù)值長(zhǎng)度和預(yù)設(shè)的數(shù)值脫敏范圍,將字符串中指定字符轉(zhuǎn)化為掩碼;
將轉(zhuǎn)化后的字符串進(jìn)行數(shù)字化后,輸出。
優(yōu)選地,當(dāng)變量類型為字符串時(shí),所述匹配替換方法包括:
提取出所述待脫敏數(shù)據(jù)的字符串;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市優(yōu)網(wǎng)科技有限公司,未經(jīng)深圳市優(yōu)網(wǎng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910486536.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過(guò)保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過(guò)保護(hù)特定的外圍設(shè)備,如鍵盤(pán)或顯示器
G06F21-06 .通過(guò)感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過(guò)限制訪問(wèn)計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過(guò)限制訪問(wèn)或處理程序或過(guò)程
- 一種數(shù)據(jù)脫敏方法及裝置
- 數(shù)據(jù)脫敏方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 信息脫敏方法、裝置及系統(tǒng)
- 數(shù)據(jù)脫敏方法及裝置
- 一種數(shù)據(jù)脫敏控制系統(tǒng)、方法、服務(wù)器和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)脫敏的方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種數(shù)據(jù)脫敏方法、數(shù)據(jù)脫敏裝置及可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)脫敏方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 日志脫敏方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- DICOM文件信息脫敏方法、裝置、服務(wù)器和可讀存儲(chǔ)介質(zhì)





