[發(fā)明專利]一種基于統(tǒng)計(jì)分詞的文獻(xiàn)密級(jí)甄別方法在審

申請(qǐng)?zhí)枺?/td>	202010530243.1	申請(qǐng)日：	2020-06-11
公開（公告）號(hào)：	CN111767733A	公開（公告）日：	2020-10-13
發(fā)明（設(shè)計(jì)）人：	李強(qiáng);余祥;朱峰;李騰飛;陳立哲;顧正海	申請(qǐng)（專利權(quán)）人：	安徽旅賁科技有限公司
主分類號(hào)：	G06F40/295	分類號(hào)：	G06F40/295;G06F40/30
代理公司：	合肥天明專利事務(wù)所(普通合伙) 34115	代理人：	閆客
地址：	230000 安徽省合肥市高新區(qū)***	國(guó)省代碼：	安徽;34
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于統(tǒng)計(jì) 分詞文獻(xiàn) 密級(jí) 甄別方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本發(fā)明公開了一種基于統(tǒng)計(jì)分詞的文獻(xiàn)密級(jí)甄別方法，屬于信息安全技術(shù)領(lǐng)域，包括：對(duì)電子文件中的文字內(nèi)容進(jìn)行提取，得到對(duì)應(yīng)的文檔內(nèi)容；將文檔內(nèi)容與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算；根據(jù)語(yǔ)義相似度計(jì)算電子文件的內(nèi)容涉密程度，得到電子文件的密級(jí)判定結(jié)果。本發(fā)明通過提取電子文件的內(nèi)容，并與敏感信息庫(kù)中的敏感信息進(jìn)行比對(duì)，找到文檔中的疑似涉密信息，對(duì)電子文件是否涉密進(jìn)行判定，以輔助人工對(duì)電子文件進(jìn)行密級(jí)甄別，便于對(duì)文獻(xiàn)實(shí)施分類管理。

技術(shù)領(lǐng)域

本發(fā)明涉及信息安全技術(shù)領(lǐng)域，特別涉及一種文獻(xiàn)密級(jí)甄別方法。

背景技術(shù)

隨著辦公信息化的快速發(fā)展，數(shù)據(jù)安全問題日益嚴(yán)重，用戶一般直接在自己的計(jì)算機(jī)中進(jìn)行辦公，計(jì)算機(jī)不但可能受到外部網(wǎng)絡(luò)的攻擊，還會(huì)遭到內(nèi)部人員無(wú)意或故意的泄密。相關(guān)人員通過對(duì)失泄密事故案件的統(tǒng)計(jì)分析，發(fā)現(xiàn)80％以上的失泄密事故案件都是和電子文檔有關(guān)的。因此，對(duì)計(jì)算機(jī)中電子文件進(jìn)行密級(jí)甄別，并實(shí)施分類管理就顯得尤為重要。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種電子文檔的密級(jí)甄別方法，提高文獻(xiàn)密級(jí)甄別的準(zhǔn)確率和效率。

為實(shí)現(xiàn)以上目的，本發(fā)明采用一種基于統(tǒng)計(jì)分詞的文獻(xiàn)密級(jí)甄別方法，包括如下步驟：

對(duì)電子文件中的文字內(nèi)容進(jìn)行提取，得到對(duì)應(yīng)的文檔內(nèi)容；

將文檔內(nèi)容與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算；

根據(jù)語(yǔ)義相似度計(jì)算電子文件的內(nèi)容涉密程度，得到電子文件的密級(jí)判定結(jié)果。

進(jìn)一步地，所述對(duì)電子文件中的文字內(nèi)容進(jìn)行提取，得到對(duì)應(yīng)的文檔內(nèi)容，包括：

利用ANSI碼和Unicode碼讀取所述電子文件的中英文內(nèi)容；

設(shè)置四個(gè)緩沖區(qū)保存讀取的ANSI碼和Unicode碼內(nèi)容，其中Unicode和ANSI各用兩個(gè)字符串緩沖區(qū)，兩個(gè)字符串緩沖區(qū)分別存儲(chǔ)所述電子文件的英文內(nèi)容和中文內(nèi)容；

向Unicode對(duì)應(yīng)的緩沖區(qū)最后一個(gè)元素讀入兩個(gè)字節(jié)，將讀到的兩個(gè)字節(jié)的低位傳遞到ANSI對(duì)應(yīng)的緩沖區(qū)，高位若為0則不處理，否則，將ANSI緩沖區(qū)左移后進(jìn)行賦值；

將文檔中指定長(zhǎng)度內(nèi)容分別讀取到緩沖區(qū)，如果Unicode對(duì)應(yīng)的緩沖區(qū)不為空，將其內(nèi)容添加到結(jié)果文本。

所述第一緩沖區(qū)和第二緩沖區(qū)每次讀取相應(yīng)內(nèi)容的兩個(gè)字節(jié)，并對(duì)字節(jié)高位為0的內(nèi)容進(jìn)行讀取和保存。

進(jìn)一步地，在所述對(duì)電子文件中的文字內(nèi)容進(jìn)行提取，得到對(duì)應(yīng)的文檔內(nèi)容之后，還包括：

采用多層隱馬模型對(duì)所述文檔內(nèi)容進(jìn)行預(yù)處理，得到所述文檔內(nèi)容對(duì)應(yīng)的詞法分析結(jié)果；

相應(yīng)地，所述將文檔內(nèi)容與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算，具體為：

將詞法分析結(jié)果與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算。

進(jìn)一步地，所述采用多層隱馬模型對(duì)所述文檔內(nèi)容進(jìn)行預(yù)處理，得到所述文檔內(nèi)容對(duì)應(yīng)的分詞結(jié)果，包括：

對(duì)輸入的原始字符串進(jìn)行預(yù)處理，得到初步分詞的二元切分詞圖；

利用多層隱馬模型對(duì)原始字符串進(jìn)行未登錄詞識(shí)別，以對(duì)初步分詞的二元切分詞圖進(jìn)行修正，得到修正后的二元切分詞圖；

利用基于詞分類的隱馬模型對(duì)修正后的二元切分詞圖進(jìn)行處理，得到所述原始字符串對(duì)應(yīng)的分詞結(jié)果。

進(jìn)一步地，所述對(duì)輸入的原始字符串進(jìn)行預(yù)處理，得到初步分詞的二元切分詞圖，包括：

對(duì)所述原始字符串進(jìn)行原子切分，得到所述原始字符串對(duì)應(yīng)的原子分詞序列；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽旅賁科技有限公司，未經(jīng)安徽旅賁科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010530243.1/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種文本相似度計(jì)算方法及系統(tǒng)
下一篇：一種具有降噪功能的精密數(shù)控設(shè)備

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】