[發明專利]一種用于敏感數據泄露檢測的關鍵詞語義分類方法與系統在審
| 申請號: | 202010578950.8 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111694961A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 陶景龍;梁淑云;劉勝;馬影;王啟凡;魏國富;殷錢安;余賢喆;周曉勇 | 申請(專利權)人: | 上海觀安信息技術股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9532;G06F40/30;G06K9/62 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 張景云 |
| 地址: | 200333 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 敏感數據 泄露 檢測 關鍵詞 語義 分類 方法 系統 | ||
1.一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:包括以下步驟:
S01,輸入敏感關鍵詞庫;
S02,詞向量化,使用自然語言處理技術對關鍵詞庫向量化;
S03,數據降維,對每個關鍵詞對應的向量數據降維;
S04,聚類分析,對已經降維的向量數據,進行聚類分析;
S05,類別標識,對已經完成聚類分析的關鍵詞向量,結合業務對關鍵詞類別進行標識;
S06,類別優化,根據所有已經標識的類別標簽,對每個類別進行關鍵詞分組優化;
S07,輸出敏感關鍵詞庫類別。
2.根據權利要求1所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:S01中的方法為:與系統維護和相關業務人員確定已經準備好的待分類的關鍵詞庫,作為輸入內容,記為集合K。
3.根據權利要求1所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:S02中的方法為:使用自然語言處理工具BERT,對輸入內容K中的所有詞匯,進行詞向量轉換,生成向量化的關鍵詞庫集合Kv。
4.根據權利要求3所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:詞向量轉換具體方法為:部署Bert-serving詞向量轉化服務;然后使用Bert-serving對集合K內的所有詞匯進行向量轉換,生成詞向量集合Kv。
5.根據權利要求3或4所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:步驟S03方法具體為:對集合Kv進行降維;集合Kv中的每個關鍵詞向量都為768高維數組矩陣,使用TSEN降維算法將每個關鍵詞向量處理為2維數據。
6.根據權利要求1所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:步驟S04方法具體為:使用Kmeans算法對S03生成的關鍵詞向量集合Kv進行聚類分析,得出n個關鍵詞向量類別,對應至集合K,即獲得已經具有分類標簽的關鍵詞庫Kn,其中類別n的設定是由算法模型構建過程中自動獲取的最優數值。
7.根據權利要求6所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:S05中的方法為:專家介入,對Kn的類別標簽進行業務屬性標識,得到有業務領域分類的KN。
8.根據權利要求7所述的一種用于敏感數據泄露檢測的關鍵詞語義分類方法,其特征在于:S06中的方法為:在S05的分析結果中,經過業務專家選定重點關注的關鍵詞類別KNx作為后續工作使用,具體為:將KNx中的所有詞作為計算對象KNxi,然后在關鍵詞向量集合Kv中尋找與計算對象語義相似度高于百分之九十的詞匯補充至重點關鍵詞類別KNx中,得到類別優化后的重點關鍵詞匯類別KNX;
其中相似度計算采用余弦相似度計算,公式如下:
其中A、B分別代表需要計算相似度的兩個對象,i代表對象位置,n代表對象長度。
9.一種用于敏感數據泄露檢測的關鍵詞語義分類系統,其特征在于:應用于權利要求1至8任一所述的方法,包括
輸入模塊,輸入敏感關鍵詞庫;
詞向量化模塊,使用自然語言處理技術對關鍵詞庫向量化;
數據降維模塊,對每個關鍵詞對應的向量數據降維;
聚類分析模塊,對已經降維的向量數據,進行聚類分析;
類別標識模塊,對已經完成聚類分析的關鍵詞向量,結合業務對關鍵詞類別進行標識;
類別優化模塊,根據所有已經標識的類別標簽,對每個類別進行關鍵詞分組優化;
輸出模塊,輸出敏感關鍵詞庫類別。
10.根據權利要求9所述的一種用于敏感數據泄露檢測的關鍵詞語義分類系統,其特征在于:所述類別優化模塊具體優化過程為:經過業務專家選定重點關注的關鍵詞類別KNx作為后續工作使用,具體為:將KNx中的所有詞作為計算對象KNxi,然后在關鍵詞向量集合Kv中尋找與計算對象語義相似度高于百分之九十的詞匯補充至重點關鍵詞類別KNx中,得到類別優化后的重點關鍵詞匯類別KNX;
其中相似度計算采用余弦相似度計算,公式如下:
其中A、B分別代表需要計算相似度的兩個對象,i代表對象位置,n代表對象長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海觀安信息技術股份有限公司,未經上海觀安信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010578950.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑材料研發用切割取樣裝置
- 下一篇:基于物聯網的智能保健系統





