[發明專利]一種識別敏感數據的方法、裝置、存儲介質及計算機設備在審

申請號：	201910337266.8	申請日：	2019-04-25
公開（公告）號：	CN110222170A	公開（公告）日：	2019-09-10
發明（設計）人：	許超俊	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/335;G06F17/27
代理公司：	北京中強智尚知識產權代理有限公司 11448	代理人：	黃耀威
地址：	518000 廣東省深圳市福田街***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	敏感數據字段計算機設備存儲介質識別子子模型敏感敏感信息模型判斷準確度分類維度
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種識別敏感數據的方法、裝置、存儲介質及計算機設備，其中，該方法包括：建立識別模型；獲取待測信息；根據識別子模型判斷待測字段是否為敏感字段，并根據分類子模型判斷待測數據是否為敏感數據；在待測字段是敏感字段且待測數據是敏感數據時，確定待測信息為敏感的信息。該方法在識別敏感數據時增加識別數據的字段的過程，通過建立識別子模型和分類子模型對待識別的待測信息中的待測字段和待測數據分別進行識別判斷，基于字段和數據兩個維度來確定待測信息是否為敏感信息，從而可以更加準確的判斷待測數據是否為敏感數據，可以使得識別準確度更高。

技術領域

本發明涉及數據識別技術領域，特別涉及一種識別敏感數據的方法、裝置、存儲介質及計算機設備。

背景技術

敏感信息一般指涉及隱私權的信息，包括財產信息、健康生理信息、生物識別信息、身份信息和網絡身份標識信息等，比如，身份證號、銀行卡號、電話號碼、網頁瀏覽記錄、行蹤軌跡等。

用戶相關的敏感信息目前主要依靠人工識別與定義模糊校驗字段實現對用戶敏感信息的獲取。人工識別大量表字段時人力消耗較高，主觀性較強，出現漏識別、錯識別的可能性較高。自定義模糊校驗字段的方法容易造成字段名稱在選取后模糊匹配時發生錯誤，將不該匹配的字段匹配上，或者因為模糊匹配范圍過小將該匹配的字段漏過。并且自定義模糊校驗字段的方法需要大量的理解數據和閱讀數據，并進行人工的定義，對操作人員的業務能力和數據理解的能力要求較高。

發明內容

為了解決現有技術存在的問題，本發明提供一種識別敏感數據的方法、裝置、存儲介質及計算機設備。

根據本發明的第一個方面，提供一種識別敏感數據的方法，包括：

建立識別模型，所述識別模型包括用于識別字段是否為敏感字段的識別子模型和用于區分敏感數據和非敏感數據的分類子模型；

獲取待測信息，所述待測信息包括待測字段和與所述待測字段相對應的待測數據；

根據所述識別子模型判斷所述待測字段是否為敏感字段，并根據所述分類子模型判斷所述待測數據是否為敏感數據；

在所述待測字段是敏感字段且所述待測數據是敏感數據時，確定所述待測信息為敏感的信息。

根據本發明的第二個方面，提供一種識別敏感數據的裝置，包括：

模型模塊，用于建立識別模型，所述識別模型包括用于識別字段是否為敏感字段的識別子模型和用于區分敏感數據和非敏感數據的分類子模型；

獲取模塊，用于獲取待測信息，所述待測信息包括待測字段和與所述待測字段相對應的待測數據；

判斷模塊，用于根據所述識別子模型判斷所述待測字段是否為敏感字段，并根據所述分類子模型判斷所述待測數據是否為敏感數據；

識別處理模塊，用于在所述待測字段是敏感字段且所述待測數據是敏感數據時，確定所述待測信息為敏感的信息。