[發明專利]一種敏感數據識別方法及裝置在審

申請號：	202110597331.8	申請日：	2021-05-31
公開（公告）號：	CN113177233A	公開（公告）日：	2021-07-27
發明（設計）人：	杜晉瑞;陳勇銓;周華;江俊	申請（專利權）人：	上海英方軟件股份有限公司
主分類號：	G06F21/62	分類號：	G06F21/62;G06F16/2455;G06F16/22
代理公司：	上海國智知識產權代理事務所(普通合伙) 31274	代理人：	潘建玲
地址：	200011 上海市黃***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種敏感數據識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種敏感數據識別方法及裝置，所述方法包括如下步驟：步驟S1，建立敏感類型模型，并確定敏感數據匹配比率；步驟S2，掃描欲進行敏感數據識別的數據庫，根據數據庫的多個維度信息確定相應的敏感類型模型；步驟S3，隨機抽取所述數據庫中每個表每列的若干數據，將其與確定的敏感類型模型匹配，根據匹配結果判斷每列數據是否屬于敏感類型。

技術領域

本發明涉及計算機信息安全技術領域，特別是涉及一種對數據庫系統中含有的敏感數據識別的敏感數據識別方法及裝置。

背景技術

敏感數據又稱隱私數據，常見的有姓名、身份證號碼、住址、電話、銀行賬號、郵箱、密碼、醫療信息、教育背景等。目前，銀行、保險、證券等金融機構保存的數據含有大量個人隱私的數據，這些與個人生活、工作密切相關的信息受到不同行業和政府數據隱私法規的管制。如果負責存儲和發布這些信息的企業或政府無法保證數據隱私，他們就會面臨嚴重的財務、法律或問責風險，同時在用戶信任方面蒙受巨大損失。因此，有效可靠的敏感數據檢測技術，相當重要。

在現有技術中，一般都是指定數據庫對應的表名列名來確定是否進行脫敏，然而，這樣的方式需要大量人工去完成，并有遺漏敏感數據的可能性，費事費力且效率低下。

發明內容

為克服上述現有技術存在的不足，本發明之目的在于提供一種敏感數據識別方法及裝置，以解決現有技術人工識別工作量大且可能遺漏敏感數據的問題，自動識別數據庫是否含有敏感數據，并輸出含有敏感數據的列及其類型。

為達上述目的，本發明提出一種敏感數據識別方法，包括如下步驟：

步驟S1，建立敏感類型模型，并確定敏感數據匹配比率；

步驟S2，掃描欲進行敏感數據識別的數據庫，根據其中各表的各維度信息確定相應的敏感類型模型；

步驟S3，隨機抽取所述數據庫中每個表每列的若干數據，將其與確定的敏感類型模型匹配，根據匹配結果判斷每列數據是否屬于敏感類型。

優選地，步驟S1進一步包括：

步驟S100，根據通用的敏感數據定義，建立通用的敏感類型模型；

步驟S101，自定義敏感類型，根據自定義的敏感類型建立自定義的敏感數據模型；

步驟S102，定義并預設敏感數據匹配比率。

優選地，于步驟S2中，掃描欲進行敏感數據識別的數據庫，提取所述數據庫的庫名、表名、表注釋，針對各個表獲取列名及列注釋并進行判斷，從而確定相應的敏感類型模模型。