[發(fā)明專利]敏感數(shù)據(jù)識別方法、裝置、設備及計算機存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201811445535.4 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN111241133A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設計)人: | 陸艷軍;楊翔;趙立農(nóng);廖天宇 | 申請(專利權)人: | 中國移動通信集團重慶有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 北京東方億思知識產(chǎn)權代理有限責任公司 11258 | 代理人: | 彭瓊 |
| 地址: | 401121*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感數(shù)據(jù) 識別 方法 裝置 設備 計算機 存儲 介質(zhì) | ||
本發(fā)明公開了一種敏感數(shù)據(jù)識別方法、裝置、設備及計算機存儲介質(zhì)。敏感數(shù)據(jù)識別方法,包括:獲取用于定位待識別的目標數(shù)據(jù)的特征參數(shù)和用于在目標數(shù)據(jù)中識別敏感數(shù)據(jù)的正則表達式;根據(jù)特征參數(shù),獲取包含目標數(shù)據(jù)的目標對象;根據(jù)正則表達式逐行識別目標對象內(nèi)的目標數(shù)據(jù),以確定目標對象內(nèi)是否包含敏感數(shù)據(jù)。根據(jù)本發(fā)明實施例,能夠快速、準確地識別大量數(shù)據(jù)中的敏感數(shù)據(jù)。
技術領域
本發(fā)明屬于數(shù)據(jù)處理技術領域,尤其涉及一種敏感數(shù)據(jù)識別方法、裝置、設備及計算機存儲介質(zhì)。
背景技術
目前的敏感數(shù)據(jù)識別方法主要是基于關鍵字庫的匹配方法結合人工識別方法來進行敏感數(shù)據(jù)的識別。
其中,關鍵字庫的匹配方法的原理為,通過人工定義敏感數(shù)據(jù)的匹配模式,對數(shù)據(jù)進行逐一匹配,當發(fā)現(xiàn)數(shù)據(jù)滿足模式匹配時,定義該數(shù)據(jù)為敏感數(shù)據(jù)。而人工識別方法的原理為,評估人員根據(jù)預定義的數(shù)據(jù)模型,例如數(shù)據(jù)庫設計模型、文件系統(tǒng)組織結構等,依據(jù)經(jīng)驗將模型中的多個數(shù)據(jù)定義為敏感信息,然后在敏感信息中,采用數(shù)據(jù)抽樣的形式進行敏感數(shù)據(jù)的識別。
因此,現(xiàn)有的利用關鍵字庫的匹配方法和人工識別方法結合的方法對敏感數(shù)據(jù)進行識別的主要過程如下:評估人員首先定義敏感數(shù)據(jù)的匹配模式,然后根據(jù)預定義的模型確定關鍵字庫的匹配方位,最后,利用敏感數(shù)據(jù)的匹配模式對目標進行匹配掃描,在完成掃描后,評估人員再對匹配結果進行過濾,以對匹配結果進行優(yōu)化。
雖然目前的敏感數(shù)據(jù)識別方法能夠一定程度地識別出敏感數(shù)據(jù),但是依然存在如下缺點:
自動化程度不足:敏感數(shù)據(jù)的識別需要人工執(zhí)行匹配結果過濾,導致效率比較低下;
識別精準度底:關鍵字庫的匹配方法采用的是模式化匹配的方式,因此,關鍵字庫的建立決定了識別敏感數(shù)據(jù)的準確度,當關鍵字庫不完整或者建立有誤時,會出現(xiàn)準確度較低的問題;
識別速度慢:由于采用人工處理的方式,在面對大量數(shù)據(jù)的時候,會出現(xiàn)識別速度周期較長的問題,而且采用人工處理的方式對評估人員的要求較高。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種敏感數(shù)據(jù)識別方法、裝置、設備及計算機存儲介質(zhì),能夠快速、準確地識別大量數(shù)據(jù)中的敏感數(shù)據(jù)。
一方面,本發(fā)明實施例提供一種敏感數(shù)據(jù)識別方法,包括:
獲取用于定位待識別的目標數(shù)據(jù)的特征參數(shù)和用于在所述目標數(shù)據(jù)中識別敏感數(shù)據(jù)的正則表達式;
根據(jù)所述特征參數(shù),獲取包含所述目標數(shù)據(jù)的目標對象;
根據(jù)所述正則表達式逐行識別所述目標對象內(nèi)的所述目標數(shù)據(jù),以確定所述目標對象內(nèi)是否包含所述敏感數(shù)據(jù)。
進一步地,所述特征參數(shù)包括所述目標對象的存放位置參數(shù)以及所述目標數(shù)據(jù)在所述目標對象中的取樣范圍參數(shù)。
進一步地,所述目標對象的存放位置參數(shù)至少包括存放所述目標對象的數(shù)據(jù)庫類型,其中,所述數(shù)據(jù)庫類型為Hive數(shù)據(jù)庫、Hbase數(shù)據(jù)庫、Linux數(shù)據(jù)庫、Windows數(shù)據(jù)庫、ORACLE數(shù)據(jù)庫、MySQL數(shù)據(jù)庫或db2數(shù)據(jù)庫。
進一步地,根據(jù)所述特征參數(shù),獲取包含所述目標數(shù)據(jù)的目標對象包括:
基于所述存放位置參數(shù)對應的存放位置,獲取在所述存放位置中的目標文件;
根據(jù)所述取樣范圍參數(shù)對應的取樣范圍,獲取在所述目標文件中的所述取樣范圍內(nèi)的目標數(shù)據(jù),并構成包含所述目標數(shù)據(jù)的所述目標對象。
進一步地,基于所述存放位置參數(shù)對應的存放位置,獲取在所述存放位置中的目標文件包括:
根據(jù)所述存放位置,獲取在所述存放位置中具有操作權限的數(shù)據(jù)文件;
剔除所述數(shù)據(jù)文件中的臨時文件,并獲得所述目標文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團重慶有限公司;中國移動通信集團有限公司,未經(jīng)中國移動通信集團重慶有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811445535.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種敏感數(shù)據(jù)的模糊化裝置及其方法
- 一種數(shù)據(jù)敏感性識別方法及裝置
- 大數(shù)據(jù)平臺敏感數(shù)據(jù)的發(fā)現(xiàn)方法、裝置、設備及存儲介質(zhì)
- 敏感數(shù)據(jù)請求方法、裝置、系統(tǒng)和計算機可讀存儲介質(zhì)
- 一種防止敏感數(shù)據(jù)泄漏的方法及系統(tǒng)
- 數(shù)據(jù)存儲方法、裝置、計算機可讀存儲介質(zhì)及電子設備
- 基于影子系統(tǒng)的敏感數(shù)據(jù)安全保護方法及系統(tǒng)
- 一種數(shù)據(jù)泄漏告警方法及相關裝置
- 一種敏感數(shù)據(jù)的安全訪問方法
- 一種備份系統(tǒng)敏感數(shù)據(jù)識別與分離方法和裝置





