[發明專利]一種敏感數據識別方法及裝置在審
| 申請號: | 202110597331.8 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113177233A | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 杜晉瑞;陳勇銓;周華;江俊 | 申請(專利權)人: | 上海英方軟件股份有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06F16/2455;G06F16/22 |
| 代理公司: | 上海國智知識產權代理事務所(普通合伙) 31274 | 代理人: | 潘建玲 |
| 地址: | 200011 上海市黃*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 敏感數據 識別 方法 裝置 | ||
本發明公開了一種敏感數據識別方法及裝置,所述方法包括如下步驟:步驟S1,建立敏感類型模型,并確定敏感數據匹配比率;步驟S2,掃描欲進行敏感數據識別的數據庫,根據數據庫的多個維度信息確定相應的敏感類型模型;步驟S3,隨機抽取所述數據庫中每個表每列的若干數據,將其與確定的敏感類型模型匹配,根據匹配結果判斷每列數據是否屬于敏感類型。
技術領域
本發明涉及計算機信息安全技術領域,特別是涉及一種對數據庫系統中含有的敏感數據識別的敏感數據識別方法及裝置。
背景技術
敏感數據又稱隱私數據,常見的有姓名、身份證號碼、住址、電話、銀行賬號、郵箱、密碼、醫療信息、教育背景等。目前,銀行、保險、證券等金融機構保存的數據含有大量個人隱私的數據,這些與個人生活、工作密切相關的信息受到不同行業和政府數據隱私法規的管制。如果負責存儲和發布這些信息的企業或政府無法保證數據隱私,他們就會面臨嚴重的財務、法律或問責風險,同時在用戶信任方面蒙受巨大損失。因此,有效可靠的敏感數據檢測技術,相當重要。
在現有技術中,一般都是指定數據庫對應的表名列名來確定是否進行脫敏,然而,這樣的方式需要大量人工去完成,并有遺漏敏感數據的可能性,費事費力且效率低下。
發明內容
為克服上述現有技術存在的不足,本發明之目的在于提供一種敏感數據識別方法及裝置,以解決現有技術人工識別工作量大且可能遺漏敏感數據的問題,自動識別數據庫是否含有敏感數據,并輸出含有敏感數據的列及其類型。
為達上述目的,本發明提出一種敏感數據識別方法,包括如下步驟:
步驟S1,建立敏感類型模型,并確定敏感數據匹配比率;
步驟S2,掃描欲進行敏感數據識別的數據庫,根據其中各表的各維度信息確定相應的敏感類型模型;
步驟S3,隨機抽取所述數據庫中每個表每列的若干數據,將其與確定的敏感類型模型匹配,根據匹配結果判斷每列數據是否屬于敏感類型。
優選地,步驟S1進一步包括:
步驟S100,根據通用的敏感數據定義,建立通用的敏感類型模型;
步驟S101,自定義敏感類型,根據自定義的敏感類型建立自定義的敏感數據模型;
步驟S102,定義并預設敏感數據匹配比率。
優選地,于步驟S2中,掃描欲進行敏感數據識別的數據庫,提取所述數據庫的庫名、表名、表注釋,針對各個表獲取列名及列注釋并進行判斷,從而確定相應的敏感類型模模型。
優選地,步驟S3進一步包括:
步驟S300,對所述數據庫的每張表每列數據隨機抽取預設數量數據;
步驟S301,根據步驟S2確定的敏感類型模型對抽取的當前列數據一一進行匹配,確定其是否與步驟S2中確定的敏感類型模型匹配;
步驟S302,根據步驟S301的匹配結果與步驟S1定義的敏感數據匹配比率,確定當前列數據是否屬于敏感類型。
優選地,于步驟S300中,若當前表當前列的數據量大于預設閾值時,則抽取預設閾值量的數據;若當前表當前列的數據量小于或等于預設閾值時,則將當前表當前列的數據全部抽取。
優選地,于步驟S302中,當根據步驟S301的匹配結果,與步驟S2中確定的敏感類型模型匹配的數據量與抽取總量的比值大于步驟S1定義的敏感數據匹配比率,則確定當前列數據屬于敏感類型。
為達到上述目的,本發明還提供一種敏感數據識別裝置,包括如下步驟:
敏感類型模型構建單元,用于建立敏感類型模型,并確定敏感數據匹配比率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海英方軟件股份有限公司,未經上海英方軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110597331.8/2.html,轉載請聲明來源鉆瓜專利網。





