[發明專利]一種數據脫敏的方法、裝置、存儲介質及計算機設備在審
| 申請號: | 201910341136.1 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110210242A | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 許超俊 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 脫敏 字段 計算機設備 存儲介質 人力成本 脫敏處理 維度 數據庫 輸出 節約 | ||
1.一種數據脫敏的方法,其特征在于,包括:
建立脫敏模型,所述脫敏模型的輸入為字段和與所述字段相應的數據,輸出為所述數據的脫敏規則;
確定待脫敏數據以及與所述待脫敏數據相應的待脫敏字段,將所述待脫敏數據和待脫敏字段作為所述脫敏模型的輸入,確定所述待脫敏數據的脫敏規則;
根據確定的所述待脫敏數據的脫敏規則對所述待脫敏數據進行脫敏處理。
2.根據權利要求1所述的方法,其特征在于,所述建立脫敏模型包括:
獲取樣本集,所述樣本集包括樣本字段、與所述樣本字段相對應的一個或多個樣本數據以及每個樣本數據的預設脫敏規則;
將所述樣本字段和相對應的樣本數據作為預設的脫敏模型的輸入、將所述樣本數據的預設脫敏規則作為所述脫敏模型的輸出,對所述脫敏模型進行訓練,確定訓練后的脫敏模型;
根據測試集對訓練后的所述脫敏模型進行測試,在所述脫敏模型通過測試時,將訓練后的所述脫敏模型作為最終建立的脫敏模型。
3.根據權利要求2所述的方法,其特征在于,所述將所述樣本字段和相對應的樣本數據作為預設的脫敏模型的輸入包括:
根據預設脫敏規則中的規則信息對相應的樣本數據進行分段處理,確定每段的樣本子數據,所述預設脫敏規則的規則信息包括脫敏位置和脫敏位數;
根據所述樣本數據生成數據總特征向量,并根據每段的所述樣本子數據生成相應的數據子特征向量,將所述數據總特征數據向量和所有的所述數據子特征向量作為脫敏模型的輸入。
4.根據權利要求2所述的方法,其特征在于,所述將所述樣本字段和相對應的樣本數據作為預設的脫敏模型的輸入包括:
分別對樣本集中的所述樣本字段進行分詞處理,確定每個所述樣本字段的分詞;
將所有所述樣本字段的分詞作為分詞集合,確定所述樣本字段每個分詞在所述分詞集合中的詞頻;
根據分詞的詞頻生成所述樣本字段的字段特征向量,并將所述字段特征向量作為脫敏模型的輸入。
5.根據權利要求4所述的方法,其特征在于,所述將所有所述樣本字段的分詞作為分詞集合,確定所述樣本字段每個分詞在所述分詞集合中的詞頻,包括:
分別確定所述樣本集中每個所述樣本字段所對應的樣本數據的數量ωi,ωi表示第i個樣本字段所對應的樣本數量,i∈[1,n],n為所述樣本集中的樣本字段的數量;
將ωi作為所述樣本字段中的每個分詞的數量的權重值,將所有分詞作為分詞集合,并確定所述分詞集合的分詞總數量:其中,N為分詞總數量,mi為所述樣本集中第i個樣本字段的分詞數量;
分別確定所述樣本字段的每個分詞aij在所述分詞集合中的詞頻:
其中,fij表示第i個樣本字段中第j個分詞aij的詞頻,j∈[1,mi];k表示具有所述分詞aij的樣本字段的順位,ωk表示第k個樣本字段的分詞數量的權重值,λk表示第k個樣本字段中包含分詞aij的數量。
6.根據權利要求1-5任一所述的方法,其特征在于,所述將所述待脫敏數據和待脫敏字段作為所述脫敏模型的輸入,確定所述待脫敏數據的脫敏規則,包括:
對所述待脫敏數據進行分段處理,確定所述待脫敏數據每段的待脫敏子數據;
將所述待脫敏數據和待脫敏字段作為所述脫敏模型的輸入,確定所述待脫敏數據的第一脫敏規則;并將所述待脫敏子數據和與所述待脫敏數據相應的待脫敏字段作為所述脫敏模型的輸入,確定所述待脫敏子數據的第二脫敏規則;
在所述第二脫敏規則屬于所述第一脫敏規則時,根據所述第一脫敏規則對所述待脫敏數據進行脫敏處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910341136.1/1.html,轉載請聲明來源鉆瓜專利網。





