[發明專利]一種基于人工智能的敏感數據自動識別方法在審

申請號：	201910859914.6	申請日：	2019-09-11
公開（公告）號：	CN110580416A	公開（公告）日：	2019-12-17
發明（設計）人：	黃紅兵;吳惠芬;龔小剛;章毅;葉衛;周升;沈志豪;張景明;裴旭斌;謝若承;方舟;郭亞瓊;陳超;許敏;陳逍瀟	申請（專利權）人：	國網浙江省電力有限公司信息通信分公司
主分類號：	G06F21/62	分類號：	G06F21/62;G06F17/27
代理公司：	33246 浙江千克知識產權代理有限公司	代理人：	裴金華
地址：	310012 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	敏感數據轉入文本匹配信息安全領域非敏感數據計算機技術敏感關鍵詞正則表達式人工智能準確度基于條件快速識別自動識別綜合性能常規的返回機場
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明的一種基于人工智能的敏感數據自動識別方法，涉及計算機技術與信息安全領域，包括如下步驟：S1、提取需要進行敏感數據識別的文本；S2、將文本與人工定義敏感關鍵詞進行匹配，若符合，轉入步驟S5；若不符合，轉入步驟S3；S3、將文本與正則表達式進行匹配，若符合，轉入步驟S5；若不符合，轉入步驟S4；S4、采用基于條件隨機場的敏感數據識別方式對文本進行識別，若識別為敏感數據，轉入步驟S5；若識別為非敏感數據，轉入步驟S6；S5、返回文本包含的敏感數據類型；S6、敏感數據識別結束。本發明能夠快速識別常規的敏感數據，同時能夠準確的識別地址和人名等數據，具有較高敏感數據識別的準確度和效率的綜合性能。

技術領域

本發明涉及計算機技術與信息安全領域，并且更具體地，涉及一種基于人工智能的敏感數據自動識別方法。

背景技術

隨著數據時代的到來，數據中蘊藏的巨大價值得以挖掘，同時也帶來了隱私信息與關鍵性敏感數據保護方面的困難。如何在實現數據高效共享的同時，保護敏感信息不被泄露，已成為數據安全智能開發的關鍵環節。要實現對敏感信息的保護，首先要求能夠準確識別出數據中的敏感數據。傳統的敏感數據發現方式一般都是通過人工配置和正則表達式匹配來實現的，但是很多數據是用戶自己填寫的，由于信息錄入的不規范性和漢語語言特點,如對于地址和人名等數據，傳統的識別方式效果往往不理想。

發明內容

本發明目的就是為了彌補現有技術存在的缺陷，提供一種基于人工智能的敏感數據自動識別方法，提高敏感數據識別的準確度和效率。

本發明技術方案如下：一種基于人工智能的敏感數據自動識別方法，其特征在于，包括如下步驟：

S1、提取需要進行敏感數據識別的文本；

S2、將所述文本與人工定義敏感關鍵詞進行匹配，若符合，轉入步驟S5；若不符合，轉入步驟S3；

S3、將所述文本與正則表達式進行匹配，若符合，轉入步驟S5；若不符合，轉入步驟S4；

S4、采用基于條件隨機場的敏感數據識別方式對所述文本進行識別，若識別為敏感數據，轉入步驟S5；若識別為非敏感數據，轉入步驟S6；

S5、返回文本包含的敏感數據類型；

S6、敏感數據識別結束。

進一步，在步驟S3與S4之間，還包括步驟S31：采用基于元數據自學習的敏感數據識別方式對所述文本進行識別，若識別為敏感數據，轉入步驟S5；若識別為非敏感數據，轉入步驟S6。

進一步，采用基于元數據自學習的敏感數據識別方式對所述文本進行識別包括如下步驟：

S311、獲取所述文本的元數據信息，同時進行元數據信息自學習；