[發(fā)明專利]基于語義特征提取的數(shù)據(jù)防泄漏方法、系統(tǒng)在審
| 申請?zhí)枺?/td> | 201810092987.2 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108280357A | 公開(公告)日: | 2018-07-13 |
| 發(fā)明(設(shè)計)人: | 劉立軍;羅海濤;汪楫人 | 申請(專利權(quán))人: | 云易天成(北京)安全科技開發(fā)有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F17/27;G06F17/30 |
| 代理公司: | 北京酷愛智慧知識產(chǎn)權(quán)代理有限公司 11514 | 代理人: | 王瑩 |
| 地址: | 100101 北京市朝陽區(qū)大*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語義特征提取 原始文檔 防泄漏 文檔向量 文檔子集 語義特征 文檔 預(yù)處理 數(shù)據(jù)安全技術(shù) 數(shù)據(jù)安全性能 目標(biāo)文檔 人工標(biāo)注 數(shù)據(jù)泄漏 數(shù)據(jù)泄露 詞向量 詞序列 聚類 防護(hù) 審查 轉(zhuǎn)化 | ||
1.一種基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,包括:
對原始文檔集中的每篇文檔進(jìn)行預(yù)處理,轉(zhuǎn)化為詞序列;
確定每個詞的詞向量,并計算每篇文檔的文檔向量;
對文檔向量進(jìn)行聚類,將原始文檔集劃分出多個文檔子集;
根據(jù)劃分后的文檔子集,提取語義特征;
將所述語義特征作為規(guī)則項,對目標(biāo)文檔進(jìn)行審查。
2.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,對原始文檔集中的每篇文檔進(jìn)行預(yù)處理,轉(zhuǎn)化為詞序列,包括:
對于英文文檔,判斷每個詞之間是否存在空格,若是,則切分為詞,添加序列;
對于中文文檔,通過分詞和/或停頓詞,將中文文檔轉(zhuǎn)化為詞序列。
3.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,確定每個詞的詞向量,并計算每篇文檔的文檔向量,包括:
通過CBOW方法或Skip-gram方法,確定每個詞的詞向量;
根據(jù)每個詞的詞向量,計算每篇文檔的文檔向量。
4.根據(jù)權(quán)利要求3所述基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,根據(jù)每個詞的詞向量,計算每篇文檔的文檔向量,包括:
根據(jù)每個詞的詞向量和權(quán)重,通過如下公式,計算每篇文檔的文檔向量,
其中,Vector(dock)表示文檔名稱為dock的文檔向量,N表示文檔名稱為dock的文檔中詞的數(shù)量,ci表示第i個詞的權(quán)重,vector(wi)表示第i個詞的詞向量。
5.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,對文檔向量進(jìn)行聚類,將原始文檔集劃分出多個文檔子集,包括:
從E篇文檔中隨機選取F篇文檔作為初始質(zhì)心,所述原始文檔集包括E篇文檔;
測量剩余的每篇文檔到每個初始質(zhì)心的第一歐式距離,確定與該篇文檔第一歐式距離最小的目標(biāo)質(zhì)心,并將該篇文檔歸到目標(biāo)質(zhì)心所屬的類;
對每個類進(jìn)行計算,得到每個類的更新質(zhì)心;
對于每一個類,將更新質(zhì)心與初始質(zhì)心進(jìn)行比較:
若更新質(zhì)心與初始質(zhì)心重合,或更新質(zhì)心與初始質(zhì)心間的歐式距離小于等于指定閾值,則將該類作為一個文檔子集,
若更新質(zhì)心與初始質(zhì)心間的歐式距離大于指定閾值,則測量剩余的每篇文檔到每個更新質(zhì)心的第二歐式距離,確定與該篇文檔第二歐式距離最小的目標(biāo)質(zhì)心,并將該篇文檔歸到目標(biāo)質(zhì)心所屬的類;
再次對每個類進(jìn)行計算,得到每個類的更新質(zhì)心,并與初始質(zhì)心比較。
6.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,根據(jù)劃分后的文檔子集,提取語義特征,包括:
針對每個文檔子集,統(tǒng)計每個文檔子集中的相鄰多個詞的次數(shù);
根據(jù)相鄰多個詞的次數(shù),提取組合詞或短句,確定語義特征。
7.根據(jù)權(quán)利要求6所述基于語義特征提取的數(shù)據(jù)防泄漏方法,其特征在于,根據(jù)相鄰多個詞的次數(shù),提取組合詞,確定語義特征,包括:
計算每個詞發(fā)生的概率;
根據(jù)每個詞發(fā)生的概率和相鄰詞出現(xiàn)的次數(shù),計算相鄰詞的互信息;
根據(jù)每個相鄰詞的互信息,確定組合詞,作為語義特征。
8.一種基于語義特征提取的數(shù)據(jù)防泄漏系統(tǒng),其特征在于,包括:
詞序列轉(zhuǎn)化單元,用于對原始文檔集中的每篇文檔進(jìn)行預(yù)處理,轉(zhuǎn)化為詞序列;
文檔表示單元,用于確定每個詞的詞向量,并計算每篇文檔的文檔向量;
聚類單元,用于對文檔向量進(jìn)行聚類,將原始文檔集劃分出多個文檔子集;
提取單元,用于根據(jù)劃分后的文檔子集,提取語義特征;
數(shù)據(jù)防泄漏處理單元,用于將所述語義特征作為規(guī)則項,對目標(biāo)文檔進(jìn)行審查。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云易天成(北京)安全科技開發(fā)有限公司,未經(jīng)云易天成(北京)安全科技開發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092987.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





