[發明專利]基于語義特征提取的數據防泄漏方法、系統在審
| 申請號: | 201810092987.2 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108280357A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 劉立軍;羅海濤;汪楫人 | 申請(專利權)人: | 云易天成(北京)安全科技開發有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F17/27;G06F17/30 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 王瑩 |
| 地址: | 100101 北京市朝陽區大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義特征提取 原始文檔 防泄漏 文檔向量 文檔子集 語義特征 文檔 預處理 數據安全技術 數據安全性能 目標文檔 人工標注 數據泄漏 數據泄露 詞向量 詞序列 聚類 防護 審查 轉化 | ||
1.一種基于語義特征提取的數據防泄漏方法,其特征在于,包括:
對原始文檔集中的每篇文檔進行預處理,轉化為詞序列;
確定每個詞的詞向量,并計算每篇文檔的文檔向量;
對文檔向量進行聚類,將原始文檔集劃分出多個文檔子集;
根據劃分后的文檔子集,提取語義特征;
將所述語義特征作為規則項,對目標文檔進行審查。
2.根據權利要求1所述基于語義特征提取的數據防泄漏方法,其特征在于,對原始文檔集中的每篇文檔進行預處理,轉化為詞序列,包括:
對于英文文檔,判斷每個詞之間是否存在空格,若是,則切分為詞,添加序列;
對于中文文檔,通過分詞和/或停頓詞,將中文文檔轉化為詞序列。
3.根據權利要求1所述基于語義特征提取的數據防泄漏方法,其特征在于,確定每個詞的詞向量,并計算每篇文檔的文檔向量,包括:
通過CBOW方法或Skip-gram方法,確定每個詞的詞向量;
根據每個詞的詞向量,計算每篇文檔的文檔向量。
4.根據權利要求3所述基于語義特征提取的數據防泄漏方法,其特征在于,根據每個詞的詞向量,計算每篇文檔的文檔向量,包括:
根據每個詞的詞向量和權重,通過如下公式,計算每篇文檔的文檔向量,
其中,Vector(dock)表示文檔名稱為dock的文檔向量,N表示文檔名稱為dock的文檔中詞的數量,ci表示第i個詞的權重,vector(wi)表示第i個詞的詞向量。
5.根據權利要求1所述基于語義特征提取的數據防泄漏方法,其特征在于,對文檔向量進行聚類,將原始文檔集劃分出多個文檔子集,包括:
從E篇文檔中隨機選取F篇文檔作為初始質心,所述原始文檔集包括E篇文檔;
測量剩余的每篇文檔到每個初始質心的第一歐式距離,確定與該篇文檔第一歐式距離最小的目標質心,并將該篇文檔歸到目標質心所屬的類;
對每個類進行計算,得到每個類的更新質心;
對于每一個類,將更新質心與初始質心進行比較:
若更新質心與初始質心重合,或更新質心與初始質心間的歐式距離小于等于指定閾值,則將該類作為一個文檔子集,
若更新質心與初始質心間的歐式距離大于指定閾值,則測量剩余的每篇文檔到每個更新質心的第二歐式距離,確定與該篇文檔第二歐式距離最小的目標質心,并將該篇文檔歸到目標質心所屬的類;
再次對每個類進行計算,得到每個類的更新質心,并與初始質心比較。
6.根據權利要求1所述基于語義特征提取的數據防泄漏方法,其特征在于,根據劃分后的文檔子集,提取語義特征,包括:
針對每個文檔子集,統計每個文檔子集中的相鄰多個詞的次數;
根據相鄰多個詞的次數,提取組合詞或短句,確定語義特征。
7.根據權利要求6所述基于語義特征提取的數據防泄漏方法,其特征在于,根據相鄰多個詞的次數,提取組合詞,確定語義特征,包括:
計算每個詞發生的概率;
根據每個詞發生的概率和相鄰詞出現的次數,計算相鄰詞的互信息;
根據每個相鄰詞的互信息,確定組合詞,作為語義特征。
8.一種基于語義特征提取的數據防泄漏系統,其特征在于,包括:
詞序列轉化單元,用于對原始文檔集中的每篇文檔進行預處理,轉化為詞序列;
文檔表示單元,用于確定每個詞的詞向量,并計算每篇文檔的文檔向量;
聚類單元,用于對文檔向量進行聚類,將原始文檔集劃分出多個文檔子集;
提取單元,用于根據劃分后的文檔子集,提取語義特征;
數據防泄漏處理單元,用于將所述語義特征作為規則項,對目標文檔進行審查。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云易天成(北京)安全科技開發有限公司,未經云易天成(北京)安全科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092987.2/1.html,轉載請聲明來源鉆瓜專利網。





