[發明專利]基于語義特征提取的數據防泄漏方法、系統在審
| 申請號: | 201810092987.2 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108280357A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 劉立軍;羅海濤;汪楫人 | 申請(專利權)人: | 云易天成(北京)安全科技開發有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F17/27;G06F17/30 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 王瑩 |
| 地址: | 100101 北京市朝陽區大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義特征提取 原始文檔 防泄漏 文檔向量 文檔子集 語義特征 文檔 預處理 數據安全技術 數據安全性能 目標文檔 人工標注 數據泄漏 數據泄露 詞向量 詞序列 聚類 防護 審查 轉化 | ||
本發明屬于數據安全技術領域,提供了一種基于語義特征提取的數據防泄漏方法、系統。該方法包括對原始文檔集中的每篇文檔進行預處理,轉化為詞序列,確定每個詞的詞向量,并計算每篇文檔的文檔向量,對文檔向量進行聚類,將原始文檔集劃分出多個文檔子集,根據劃分后的文檔子集,提取語義特征,并作為規則項,對目標文檔進行審查。本發明基于語義特征提取的數據防泄漏方法、系統,能夠從未經人工標注的原始文檔中提取出高質量的語義特征,作為數據泄露防護的規則項,防止數據泄漏,提高數據安全性能。
技術領域
本發明涉及數據安全技術領域,具體涉及一種基于語義特征提取的數據防泄漏方法、系統。
背景技術
信息化為人們的生活帶來諸多便利,同時,也帶來了數據泄露的風險。信息安全正在經歷從網絡安全到內容安全的轉變,如何防止敏感數據和隱私信息泄露成為安全防護的重點。以加密為主的防護方式覆蓋范圍小,而且易用性較差;而以文檔權限管理為主的防護方式用戶主動性差,容易失效。
在傳統的數據保護系統中,為了支持基于分類分級的數據保護,必須由人工為所有數據打上分類分級標簽,這種方法處理效率低,無法滿足數據不斷增長和變化的需求。
目前,數據防護大多是基于關鍵詞和正則表達式這種簡單特征識別技術,來發現復雜的非結構化敏感數據,并且,需要通過人工方式,從海量非結構化樣本數據中挑選出具有識別意義的關鍵詞。
為了準確地識別敏感數據,并具備強大的抗干擾能力,必須抽取豐富而有代表性的識別特征。這項工作如果沒有工具輔助,只靠人力是很難完成的。
近年來,機器學習技術日漸成熟,已被應用于數據防護。有監督機器學習需要大量的人工標注語料,而這個條件常常無法滿足,因此,利用無監督機器學習分析大量未經人工標注的原始文檔,通過機器統計從中提取出高質量的語義特征,作為數據泄露防護的規則項,是最有效的方式,也是本領域技術人員亟需解決的問題。
發明內容
針對現有技術中的缺陷,本發明提供了一種基于語義特征提取的數據防泄漏方法、系統,能夠從未經人工標注的原始文檔中提取出高質量的語義特征,作為數據泄露防護的規則項,防止數據泄漏,提高數據安全性能。
第一方面,本發明提供一種基于語義特征提取的數據防泄漏方法,該方法包括:對原始文檔集中的每篇文檔進行預處理,轉化為詞序列;
確定每個詞的詞向量,并計算每篇文檔的文檔向量;
對文檔向量進行聚類,將原始文檔集劃分出多個文檔子集;
根據劃分后的文檔子集,提取語義特征;
將語義特征作為規則項,對目標文檔進行審查。
進一步地,對原始文檔集中的每篇文檔進行預處理,轉化為詞序列,包括:
對于英文文檔,判斷每個詞之間是否存在空格,若是,則切分為詞,添加序列;
對于中文文檔,通過分詞和/或停頓詞,將中文文檔轉化為詞序列。
基于上述任意基于語義特征提取的數據防泄漏方法實施例,進一步地,確定每個詞的詞向量,并計算每篇文檔的文檔向量,包括:
通過CBOW方法或Skip-gram方法,確定每個詞的詞向量;
根據每個詞的詞向量,計算每篇文檔的文檔向量。
進一步地,根據每個詞的詞向量,計算每篇文檔的文檔向量,包括:
根據每個詞的詞向量和權重,通過如下公式,計算每篇文檔的文檔向量,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云易天成(北京)安全科技開發有限公司,未經云易天成(北京)安全科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092987.2/2.html,轉載請聲明來源鉆瓜專利網。





