[發(fā)明專利]大數(shù)據(jù)脫敏方法在審
| 申請?zhí)枺?/td> | 202010675130.0 | 申請日: | 2020-07-14 |
| 公開(公告)號: | CN111814187A | 公開(公告)日: | 2020-10-23 |
| 發(fā)明(設(shè)計)人: | 臧其事;趙可欣;吳曉峰 | 申請(專利權(quán))人: | 中國農(nóng)業(yè)銀行股份有限公司上海市分行 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06Q40/02;G06F7/58;G06F17/16 |
| 代理公司: | 上海專利商標(biāo)事務(wù)所有限公司 31100 | 代理人: | 陸嘉 |
| 地址: | 200120*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 方法 | ||
本發(fā)明揭示了一種大數(shù)據(jù)脫敏方法,對多維度事實表中的指定數(shù)據(jù)進(jìn)行脫敏,包括:初始化步驟,讀取多維度事實表中的指定數(shù)據(jù)并排列為一個數(shù)據(jù)矩陣,數(shù)據(jù)矩陣中的每一列對應(yīng)一個維度,該數(shù)據(jù)矩陣為原始數(shù)據(jù)矩陣。空間變換步驟,按照列對每一個維度的指定數(shù)據(jù)進(jìn)行變換,變換包括拉伸變換、收縮變換或者扭曲變換,得到經(jīng)變換的數(shù)據(jù)矩陣。其中,經(jīng)歸一化處理后,經(jīng)變換的數(shù)據(jù)矩陣中的各個數(shù)據(jù)的值與原始數(shù)據(jù)矩陣中的對應(yīng)數(shù)值的差異小于5%。本發(fā)明的大數(shù)據(jù)脫敏方法利用空間變換對敏感數(shù)據(jù)進(jìn)行脫敏,脫敏后的數(shù)據(jù)的空間相對位置信息保留,空間變換造成的數(shù)據(jù)損失小于5%。該大數(shù)據(jù)脫敏方法也可以應(yīng)用于分布式框架,以滿足分布式系統(tǒng)大數(shù)據(jù)運算的需求。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,更具體地說,涉及大數(shù)據(jù)的數(shù)據(jù)安全技術(shù)。
背景技術(shù)
數(shù)據(jù)處理正在成為重要的基礎(chǔ)設(shè)施,對于數(shù)據(jù)處理來說,數(shù)據(jù)安全性,尤其是敏感數(shù)據(jù)的安全性顯得尤為重要。對于敏感數(shù)據(jù)的數(shù)據(jù)脫敏也是一種基礎(chǔ)設(shè)施。在金融領(lǐng)域,現(xiàn)有技術(shù)中對于數(shù)據(jù)脫敏基本使用隨機值替換脫敏以及特殊字符替換脫敏的方式。前者采用隨機值替換(字母變?yōu)殡S機字母,數(shù)字變?yōu)殡S機數(shù)字)的方式來改變數(shù)據(jù),后者采用特殊字符(如“*”)替換的方式來改變數(shù)據(jù)。
對于沒有具體含義,僅起到指示作用的數(shù)據(jù),比如:姓名、手機號、卡號等來說,這種脫敏方式是合適的,諸如姓名、手機號、卡號等指示性信息對于數(shù)據(jù)挖掘和數(shù)據(jù)分析等沒有實質(zhì)性的意義。
隨著信息化和數(shù)據(jù)化在金融行業(yè)的不斷深入,對于金融數(shù)據(jù)的數(shù)據(jù)挖掘和數(shù)據(jù)分析顯得越來越重要,數(shù)據(jù)挖掘和數(shù)據(jù)分析在風(fēng)險控制、風(fēng)險預(yù)警、客戶識別和提升效益方面起到越來越重要的作用。在數(shù)據(jù)挖掘和數(shù)據(jù)分析的過程中,就需要使用到資產(chǎn)數(shù)據(jù)、行為數(shù)據(jù)、客戶畫像等數(shù)據(jù)。這些數(shù)據(jù)也屬于客戶隱私,在進(jìn)行使用之前必須進(jìn)行脫敏才可以使用。對于這些數(shù)據(jù)來說,其數(shù)據(jù)本身具有含義,按照傳統(tǒng)的隨機值替換脫敏或者特殊字符替換脫敏的方式,會改變數(shù)據(jù)本身,是的數(shù)據(jù)本身具有的含義部分或者全部丟失,從而導(dǎo)致后續(xù)的數(shù)據(jù)挖掘和數(shù)據(jù)分析無法進(jìn)行。此外,為了獲得更加高效的風(fēng)險控制、風(fēng)險預(yù)警、客戶識別和提升效益的效果,希望在更多的金融機構(gòu)之間共享數(shù)據(jù),對多家金融機構(gòu)擁有的大數(shù)據(jù)進(jìn)行分析,其效果更加準(zhǔn)確。數(shù)據(jù)共享和交換對數(shù)據(jù)脫敏提出了更高的要求,一方面要求脫敏后的數(shù)據(jù)與原數(shù)據(jù)存在顯著差異,要確保不能基于脫敏后的數(shù)據(jù)還原或者定位到原數(shù)據(jù),避免原數(shù)據(jù)受到攻擊。另一方面要脫敏后的數(shù)據(jù)要盡量保留原數(shù)據(jù)的含義和信息,使得后續(xù)的數(shù)據(jù)挖掘和數(shù)據(jù)分析能夠繼續(xù)進(jìn)行并且維持應(yīng)有的準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明旨在提出一種大數(shù)據(jù)脫敏方法,能對敏感數(shù)據(jù)進(jìn)行微損脫敏,該方法還可以在分布式框架上執(zhí)行。
根據(jù)本發(fā)明的一實施例,提出一種大數(shù)據(jù)脫敏方法,對多維度事實表中的指定數(shù)據(jù)進(jìn)行脫敏,包括:
初始化步驟,讀取多維度事實表中的指定數(shù)據(jù)并排列為一個數(shù)據(jù)矩陣,數(shù)據(jù)矩陣中的每一列對應(yīng)一個維度,該數(shù)據(jù)矩陣為原始數(shù)據(jù)矩陣;
空間變換步驟,按照列對每一個維度的指定數(shù)據(jù)進(jìn)行變換,所述變換包括拉伸變換、收縮變換或者扭曲變換,得到經(jīng)變換的數(shù)據(jù)矩陣;
其中,經(jīng)歸一化處理后,經(jīng)變換的數(shù)據(jù)矩陣中的各個數(shù)據(jù)的值與原始數(shù)據(jù)矩陣中的對應(yīng)數(shù)值的差異小于5%。
在一個實施例中,拉伸變換包括:生成一列隨機放大系數(shù),隨機放大系數(shù)的數(shù)量與對應(yīng)的列中的指定數(shù)據(jù)的數(shù)量相同,該列隨機放大系數(shù)滿足正態(tài)分布;將該列指定數(shù)據(jù)與該列隨機放大系數(shù)相乘,得到經(jīng)拉伸變換的列。收縮變換包括:生成一列隨機收縮系數(shù),隨機收縮系數(shù)的數(shù)量與對應(yīng)的列中的指定數(shù)據(jù)的數(shù)量相同,該列隨機收縮系數(shù)滿足正態(tài)分布;將該列指定數(shù)據(jù)與該列隨機收縮系數(shù)相乘,得到經(jīng)收縮變換的列。
在一個實施例中,扭曲變換包括:生成一Sigmod函數(shù);生成一列隨機附加系數(shù),隨機附加系數(shù)的數(shù)量與對應(yīng)的列中的指定數(shù)據(jù)的數(shù)量相同,該列隨機附加系數(shù)滿足正態(tài)分布;使用Sigmod函數(shù)對該列指定數(shù)據(jù)進(jìn)行運算,運算的結(jié)果與對應(yīng)的隨機附加系數(shù)共同得到經(jīng)扭曲變換的列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國農(nóng)業(yè)銀行股份有限公司上海市分行,未經(jīng)中國農(nóng)業(yè)銀行股份有限公司上海市分行許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010675130.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種可替換探頭的便攜式醫(yī)療檢測儀及其控制方法
- 下一篇:高爾夫球夾
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





