[發明專利]一種識別敏感數據的方法、裝置、存儲介質及計算機設備在審
| 申請號: | 201910337266.8 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110222170A | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 許超俊 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F17/27 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感數據 字段 計算機設備 存儲介質 識別子 子模型 敏感 敏感信息 模型判斷 準確度 分類 維度 | ||
本發明提供了一種識別敏感數據的方法、裝置、存儲介質及計算機設備,其中,該方法包括:建立識別模型;獲取待測信息;根據識別子模型判斷待測字段是否為敏感字段,并根據分類子模型判斷待測數據是否為敏感數據;在待測字段是敏感字段且待測數據是敏感數據時,確定待測信息為敏感的信息。該方法在識別敏感數據時增加識別數據的字段的過程,通過建立識別子模型和分類子模型對待識別的待測信息中的待測字段和待測數據分別進行識別判斷,基于字段和數據兩個維度來確定待測信息是否為敏感信息,從而可以更加準確的判斷待測數據是否為敏感數據,可以使得識別準確度更高。
技術領域
本發明涉及數據識別技術領域,特別涉及一種識別敏感數據的方法、裝置、存儲介質及計算機設備。
背景技術
敏感信息一般指涉及隱私權的信息,包括財產信息、健康生理信息、生物識別信息、身份信息和網絡身份標識信息等,比如,身份證號、銀行卡號、電話號碼、網頁瀏覽記錄、行蹤軌跡等。
用戶相關的敏感信息目前主要依靠人工識別與定義模糊校驗字段實現對用戶敏感信息的獲取。人工識別大量表字段時人力消耗較高,主觀性較強,出現漏識別、錯識別的可能性較高。自定義模糊校驗字段的方法容易造成字段名稱在選取后模糊匹配時發生錯誤,將不該匹配的字段匹配上,或者因為模糊匹配范圍過小將該匹配的字段漏過。并且自定義模糊校驗字段的方法需要大量的理解數據和閱讀數據,并進行人工的定義,對操作人員的業務能力和數據理解的能力要求較高。
發明內容
為了解決現有技術存在的問題,本發明提供一種識別敏感數據的方法、裝置、存儲介質及計算機設備。
根據本發明的第一個方面,提供一種識別敏感數據的方法,包括:
建立識別模型,所述識別模型包括用于識別字段是否為敏感字段的識別子模型和用于區分敏感數據和非敏感數據的分類子模型;
獲取待測信息,所述待測信息包括待測字段和與所述待測字段相對應的待測數據;
根據所述識別子模型判斷所述待測字段是否為敏感字段,并根據所述分類子模型判斷所述待測數據是否為敏感數據;
在所述待測字段是敏感字段且所述待測數據是敏感數據時,確定所述待測信息為敏感的信息。
根據本發明的第二個方面,提供一種識別敏感數據的裝置,包括:
模型模塊,用于建立識別模型,所述識別模型包括用于識別字段是否為敏感字段的識別子模型和用于區分敏感數據和非敏感數據的分類子模型;
獲取模塊,用于獲取待測信息,所述待測信息包括待測字段和與所述待測字段相對應的待測數據;
判斷模塊,用于根據所述識別子模型判斷所述待測字段是否為敏感字段,并根據所述分類子模型判斷所述待測數據是否為敏感數據;
識別處理模塊,用于在所述待測字段是敏感字段且所述待測數據是敏感數據時,確定所述待測信息為敏感的信息。
根據本申請的第三個方面,提供一種計算機可讀存儲介質,其上存儲有計算機可讀指令,該計算機可讀指令被處理器執行時實現識別敏感數據的步驟。
根據本申請的第四個方面,提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機可讀指令,所述處理器執行所述計算機可讀指令時實現識別敏感數據的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910337266.8/2.html,轉載請聲明來源鉆瓜專利網。





