[發明專利]基于敏感數據的脫敏方法及系統在審
| 申請號: | 201910486536.1 | 申請日: | 2019-06-05 |
| 公開(公告)號: | CN110188571A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 李適季;周蒞濤;施全立;白林;陳天立;張宏偉 | 申請(專利權)人: | 深圳市優網科技有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 占麗君 |
| 地址: | 518000 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 脫敏 替換 算法 匹配 敏感數據 數據量 閾值時 變量類型 多數據源 靈活配置 預設 噪聲 分組 改進 | ||
1.一種基于敏感數據的脫敏方法,其特征在于,
獲取待脫敏數據;
當待脫敏數據的數據量滿足k-means算法閾值時,采用k-means改進算法對待脫敏數據進行分組劃分,并加入Laplace噪聲對劃分后的待脫敏數據進行脫敏;
當待脫敏數據的數據量滿足匹配替換閾值時,采用匹配替換方法對待脫敏數據進行脫敏;其中匹配替換方法包括根據預設的變量類型、以關鍵字為原則對待脫敏數據進行替換。
2.根據權利要求1所述基于敏感數據的脫敏方法,其特征在于,
所述變量類型包括數值、字符串、時間和正則表達式。
3.根據權利要求2所述基于敏感數據的脫敏方法,其特征在于,
當變量類型為數值時,所述匹配替換方法包括:
提取出所述待脫敏數據的數字符號;
計算所述數字符號的數值長度,并進行超限處理,以獲得初始數值;
將所述初始數值轉化為字符串;
根據所述數值長度和預設的數值脫敏范圍,將字符串中指定字符轉化為掩碼;
將轉化后的字符串進行數字化后,輸出。
4.根據權利要求2所述基于敏感數據的脫敏方法,其特征在于,
當變量類型為字符串時,所述匹配替換方法包括:
提取出所述待脫敏數據的字符串;
當所述字符串中存在部分內容屬于預設的字符串脫敏范圍時,把屬于字符串脫敏范圍的內容替換為掩碼,輸出。
5.根據權利要求2所述基于敏感數據的脫敏方法,其特征在于,
當變量類型為時間時,所述匹配替換方法包括:
提取出所述待脫敏數據的時間信息;
如果時間信息是有效信息,將所述時間信息轉化為預設的按秒計時格式,以獲得初始時間信息;
當所述初始時間信息中存在部分內容屬于預設的時間脫敏范圍時,把屬于時間脫敏范圍的內容替換為0;
將替換后的時間信息轉化為預設的標準時間后,輸出。
6.根據權利要求2所述基于敏感數據的脫敏方法,其特征在于,
當變量類型為正則表達式時,所述匹配替換方法包括:
從所述待脫敏數據的第一位數據開始識別,直至識別到所述待脫敏數據的最后一位數據;
當存在與所述正則表達式匹配的數據時,將該數據替換為預設的脫敏符號;
輸出替換后的待脫敏數據。
7.根據權利要求1-6中任一所述基于敏感數據的脫敏方法,其特征在于,
所述采用k-means改進算法對待脫敏數據進行分組劃分,并加入Laplace噪聲對劃分后的待脫敏數據進行脫敏具體包括:
設置聚類中心;
獲取包含統計分類結果的數據集,計算所述數據集的均值向量;
計算所述數據集中每個數據向量與均值向量之間的距離,定義為當前距離;
如果當前距離小于預設的最小距離時,更新最小距離為當前距離;
對所述待脫敏數據進行重新分組,保存新得到的均值向量,并統計均值向量個數;
根據每個分組添加Laplace噪聲,對該分組進行計算;
輸出計算后的待脫敏數據。
8.一種基于敏感數據的脫敏系統,其特征在于,包括:
采集單元:用于獲取待脫敏數據;
k-means分析單元:用于當待脫敏數據的數據量滿足k-means算法閾值時,采用k-means改進算法對待脫敏數據進行分組劃分,并加入Laplace噪聲對劃分后的待脫敏數據進行脫敏;
匹配替換單元:用于當待脫敏數據的數據量滿足匹配替換閾值時,采用匹配替換方法對待脫敏數據進行脫敏;其中匹配替換方法包括根據預設的變量類型、以關鍵字為原則對待脫敏數據進行替換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市優網科技有限公司,未經深圳市優網科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910486536.1/1.html,轉載請聲明來源鉆瓜專利網。





