[發(fā)明專利]基于語義特征提取的數(shù)據(jù)防泄漏方法、系統(tǒng)在審

申請?zhí)枺?/td>	201810092987.2	申請日：	2018-01-31
公開（公告）號：	CN108280357A	公開（公告）日：	2018-07-13
發(fā)明（設(shè)計）人：	劉立軍;羅海濤;汪楫人	申請（專利權(quán)）人：	云易天成（北京）安全科技開發(fā)有限公司
主分類號：	G06F21/60	分類號：	G06F21/60;G06F17/27;G06F17/30
代理公司：	北京酷愛智慧知識產(chǎn)權(quán)代理有限公司 11514	代理人：	王瑩
地址：	100101 北京市朝陽區(qū)大***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語義特征提取原始文檔防泄漏文檔向量文檔子集語義特征文檔預(yù)處理數(shù)據(jù)安全技術(shù) 數(shù)據(jù)安全性能目標(biāo)文檔人工標(biāo)注數(shù)據(jù)泄漏數(shù)據(jù)泄露詞向量詞序列聚類防護(hù) 審查轉(zhuǎn)化
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，包括：

對原始文檔集中的每篇文檔進(jìn)行預(yù)處理，轉(zhuǎn)化為詞序列；

確定每個詞的詞向量，并計算每篇文檔的文檔向量；

對文檔向量進(jìn)行聚類，將原始文檔集劃分出多個文檔子集；

根據(jù)劃分后的文檔子集，提取語義特征；

將所述語義特征作為規(guī)則項，對目標(biāo)文檔進(jìn)行審查。

2.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，對原始文檔集中的每篇文檔進(jìn)行預(yù)處理，轉(zhuǎn)化為詞序列，包括：

對于英文文檔，判斷每個詞之間是否存在空格，若是，則切分為詞，添加序列；

對于中文文檔，通過分詞和/或停頓詞，將中文文檔轉(zhuǎn)化為詞序列。

3.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，確定每個詞的詞向量，并計算每篇文檔的文檔向量，包括：

通過CBOW方法或Skip-gram方法，確定每個詞的詞向量；

根據(jù)每個詞的詞向量，計算每篇文檔的文檔向量。

4.根據(jù)權(quán)利要求3所述基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，根據(jù)每個詞的詞向量，計算每篇文檔的文檔向量，包括：

根據(jù)每個詞的詞向量和權(quán)重，通過如下公式，計算每篇文檔的文檔向量，

其中，Vector(doc_k)表示文檔名稱為doc_k的文檔向量，N表示文檔名稱為doc_k的文檔中詞的數(shù)量，c_i表示第i個詞的權(quán)重，vector(w_i)表示第i個詞的詞向量。

5.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，對文檔向量進(jìn)行聚類，將原始文檔集劃分出多個文檔子集，包括：

從E篇文檔中隨機選取F篇文檔作為初始質(zhì)心，所述原始文檔集包括E篇文檔；

測量剩余的每篇文檔到每個初始質(zhì)心的第一歐式距離，確定與該篇文檔第一歐式距離最小的目標(biāo)質(zhì)心，并將該篇文檔歸到目標(biāo)質(zhì)心所屬的類；

對每個類進(jìn)行計算，得到每個類的更新質(zhì)心；

對于每一個類，將更新質(zhì)心與初始質(zhì)心進(jìn)行比較：

若更新質(zhì)心與初始質(zhì)心重合，或更新質(zhì)心與初始質(zhì)心間的歐式距離小于等于指定閾值，則將該類作為一個文檔子集，

若更新質(zhì)心與初始質(zhì)心間的歐式距離大于指定閾值，則測量剩余的每篇文檔到每個更新質(zhì)心的第二歐式距離，確定與該篇文檔第二歐式距離最小的目標(biāo)質(zhì)心，并將該篇文檔歸到目標(biāo)質(zhì)心所屬的類；

再次對每個類進(jìn)行計算，得到每個類的更新質(zhì)心，并與初始質(zhì)心比較。

6.根據(jù)權(quán)利要求1所述基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，根據(jù)劃分后的文檔子集，提取語義特征，包括：

針對每個文檔子集，統(tǒng)計每個文檔子集中的相鄰多個詞的次數(shù)；

根據(jù)相鄰多個詞的次數(shù)，提取組合詞或短句，確定語義特征。

7.根據(jù)權(quán)利要求6所述基于語義特征提取的數(shù)據(jù)防泄漏方法，其特征在于，根據(jù)相鄰多個詞的次數(shù)，提取組合詞，確定語義特征，包括：

計算每個詞發(fā)生的概率；

根據(jù)每個詞發(fā)生的概率和相鄰詞出現(xiàn)的次數(shù)，計算相鄰詞的互信息；

根據(jù)每個相鄰詞的互信息，確定組合詞，作為語義特征。

8.一種基于語義特征提取的數(shù)據(jù)防泄漏系統(tǒng)，其特征在于，包括：

詞序列轉(zhuǎn)化單元，用于對原始文檔集中的每篇文檔進(jìn)行預(yù)處理，轉(zhuǎn)化為詞序列；

文檔表示單元，用于確定每個詞的詞向量，并計算每篇文檔的文檔向量；

聚類單元，用于對文檔向量進(jìn)行聚類，將原始文檔集劃分出多個文檔子集；

提取單元，用于根據(jù)劃分后的文檔子集，提取語義特征；

數(shù)據(jù)防泄漏處理單元，用于將所述語義特征作為規(guī)則項，對目標(biāo)文檔進(jìn)行審查。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云易天成（北京）安全科技開發(fā)有限公司，未經(jīng)云易天成（北京）安全科技開發(fā)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810092987.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：文件解密方法、裝置、處理終端及計算機可讀存儲介質(zhì)
下一篇：一種安全文檔日志管理方法及服務(wù)器

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計算機或計算機系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計算機的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備，如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計算機系統(tǒng)或計算機網(wǎng)絡(luò)中的節(jié)點
G06F21-22 .通過限制訪問或處理程序或過程

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】