[發明專利]一種雙層過濾式的數據脫敏方法和系統在審
| 申請號: | 201810186413.1 | 申請日: | 2018-03-07 |
| 公開(公告)號: | CN108537056A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 呂軍震;于國方;胥洪鋒;馬利強;李長松;武佳 | 申請(專利權)人: | 新博卓暢技術(北京)有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 北京馳納智財知識產權代理事務所(普通合伙) 11367 | 代理人: | 陳常美 |
| 地址: | 065001 河北省*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 脫敏 雙層過濾式 脫敏過程 仿真數據庫 人為控制 脫敏處理 字段 敏感 干預 監管 學習 | ||
本發明提供一種雙層過濾式的數據脫敏方法和系統,其中方法包括提取待識別數據,還包括以下步驟:提取所述待識別數據中的敏感字段;生成仿真數據庫;對數據進行脫敏處理。采用雙層過濾式脫敏,同時滿足單向脫敏和高仿真的脫敏過程需求。強化了脫敏過程的人為控制能力,對機器脫敏過程的進行監管和學習干預。
技術領域
本發明涉及數據分析的技術領域,特別是一種雙層過濾式的數據脫敏方法和系統。
背景技術
醫院業務系統積累了大量患者病歷信息,這些數據對病人是個人及疾病的隱私數據,如果這些敏感數據被泄露,不但會給醫院帶來經濟和聲譽上的損失,還會威脅到患者的財產和個人安全。
數據脫敏是指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。這樣,就可以在開發、測試和其它非生產環境中安全地使用脫敏后的真實數據集。
加密和刪除敏感數據是數據脫敏的兩種常用方法,這兩種方法都有一定的缺陷。加密脫敏能夠保證數據的一致性,但不同加密算法生成的數據仿真性較差,破解了加密數據就相當于得到了用戶的原始數據,因此安全等級不高;刪除敏感數據是通過刪除或替換部分關鍵數據達到脫敏效果的脫敏方法,脫敏過程為數據帶來了一定程度的信息損壞,不能保障了數據唯一性和可標識別性。
公開號為CN106295400A的發明專利公開了一種蒙版式數據脫敏方法及相關設備,其中方法包括建立敏感字段規則庫、定位敏感字段、生成脫敏數據蒙版、調用脫敏數據等步驟,可以實現大批量、高仿真的。該方法是設置內置的敏感字段識別規則已達到識別、生成和脫敏處理目標的目的,不能夠通過人工干預和系統自學習的方法,自動增減敏感字段數據庫中的內容。
發明內容
為了解決上述的技術問題,本發明提出一種雙層過濾式的數據脫敏方法和系統,采用雙層過濾式脫敏,同時滿足單向脫敏和高仿真的脫敏過程需求。強化了脫敏過程的人為控制能力,對機器脫敏過程的進行監管和學習干預。
本發明的第一目的是提供了一種雙層過濾式的數據脫敏方法,包括提取待識別數據,還包括以下步驟:
步驟1:提取所述待識別數據中的敏感字段;
步驟2:生成仿真數據庫;
步驟3:對數據進行脫敏處理。
優選的是,所述步驟1包括以下子步驟:
步驟11:識別所述敏感字段;
步驟12:校對識別結果。
在上述任一方案中優選的是,所述步驟11包括根據常規規則判斷所述敏感字段。
在上述任一方案中優選的是,所述步驟11還包括利用分詞統計模型檢查方式分析數據是否為所述敏感字段,并確定所述敏感字段類別。
在上述任一方案中優選的是,所述分詞統計模型包括模型字符類型分析參數S1、模型字符長度分析參數S2、模型詞頻數量分析參數S3和模型詞頻位置分析參數S4中至少一種。
在上述任一方案中優選的是,所述模型字符類型分析參數S1是指帶判定字段S的字符占比評價的得分,計算公式為S1=[100-ABSC1-C/100,其中,C1為待比較的字段字符比例,C為模型的字段字符比例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新博卓暢技術(北京)有限公司,未經新博卓暢技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810186413.1/2.html,轉載請聲明來源鉆瓜專利網。





