[發(fā)明專利]一種基于統(tǒng)計(jì)分詞的文獻(xiàn)密級(jí)甄別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010530243.1 | 申請(qǐng)日: | 2020-06-11 |
| 公開(公告)號(hào): | CN111767733A | 公開(公告)日: | 2020-10-13 |
| 發(fā)明(設(shè)計(jì))人: | 李強(qiáng);余祥;朱峰;李騰飛;陳立哲;顧正海 | 申請(qǐng)(專利權(quán))人: | 安徽旅賁科技有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/30 |
| 代理公司: | 合肥天明專利事務(wù)所(普通合伙) 34115 | 代理人: | 閆客 |
| 地址: | 230000 安徽省合肥市高新區(qū)*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 統(tǒng)計(jì) 分詞 文獻(xiàn) 密級(jí) 甄別 方法 | ||
本發(fā)明公開了一種基于統(tǒng)計(jì)分詞的文獻(xiàn)密級(jí)甄別方法,屬于信息安全技術(shù)領(lǐng)域,包括:對(duì)電子文件中的文字內(nèi)容進(jìn)行提取,得到對(duì)應(yīng)的文檔內(nèi)容;將文檔內(nèi)容與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算;根據(jù)語(yǔ)義相似度計(jì)算電子文件的內(nèi)容涉密程度,得到電子文件的密級(jí)判定結(jié)果。本發(fā)明通過提取電子文件的內(nèi)容,并與敏感信息庫(kù)中的敏感信息進(jìn)行比對(duì),找到文檔中的疑似涉密信息,對(duì)電子文件是否涉密進(jìn)行判定,以輔助人工對(duì)電子文件進(jìn)行密級(jí)甄別,便于對(duì)文獻(xiàn)實(shí)施分類管理。
技術(shù)領(lǐng)域
本發(fā)明涉及信息安全技術(shù)領(lǐng)域,特別涉及一種文獻(xiàn)密級(jí)甄別方法。
背景技術(shù)
隨著辦公信息化的快速發(fā)展,數(shù)據(jù)安全問題日益嚴(yán)重,用戶一般直接在自己的計(jì)算機(jī)中進(jìn)行辦公,計(jì)算機(jī)不但可能受到外部網(wǎng)絡(luò)的攻擊,還會(huì)遭到內(nèi)部人員無(wú)意或故意的泄密。相關(guān)人員通過對(duì)失泄密事故案件的統(tǒng)計(jì)分析,發(fā)現(xiàn)80%以上的失泄密事故案件都是和電子文檔有關(guān)的。因此,對(duì)計(jì)算機(jī)中電子文件進(jìn)行密級(jí)甄別,并實(shí)施分類管理就顯得尤為重要。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種電子文檔的密級(jí)甄別方法,提高文獻(xiàn)密級(jí)甄別的準(zhǔn)確率和效率。
為實(shí)現(xiàn)以上目的,本發(fā)明采用一種基于統(tǒng)計(jì)分詞的文獻(xiàn)密級(jí)甄別方法,包括如下步驟:
對(duì)電子文件中的文字內(nèi)容進(jìn)行提取,得到對(duì)應(yīng)的文檔內(nèi)容;
將文檔內(nèi)容與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算;
根據(jù)語(yǔ)義相似度計(jì)算電子文件的內(nèi)容涉密程度,得到電子文件的密級(jí)判定結(jié)果。
進(jìn)一步地,所述對(duì)電子文件中的文字內(nèi)容進(jìn)行提取,得到對(duì)應(yīng)的文檔內(nèi)容,包括:
利用ANSI碼和Unicode碼讀取所述電子文件的中英文內(nèi)容;
設(shè)置四個(gè)緩沖區(qū)保存讀取的ANSI碼和Unicode碼內(nèi)容,其中Unicode和ANSI各用兩個(gè)字符串緩沖區(qū),兩個(gè)字符串緩沖區(qū)分別存儲(chǔ)所述電子文件的英文內(nèi)容和中文內(nèi)容;
向Unicode對(duì)應(yīng)的緩沖區(qū)最后一個(gè)元素讀入兩個(gè)字節(jié),將讀到的兩個(gè)字節(jié)的低位傳遞到ANSI對(duì)應(yīng)的緩沖區(qū),高位若為0則不處理,否則,將ANSI緩沖區(qū)左移后進(jìn)行賦值;
將文檔中指定長(zhǎng)度內(nèi)容分別讀取到緩沖區(qū),如果Unicode對(duì)應(yīng)的緩沖區(qū)不為空,將其內(nèi)容添加到結(jié)果文本。
所述第一緩沖區(qū)和第二緩沖區(qū)每次讀取相應(yīng)內(nèi)容的兩個(gè)字節(jié),并對(duì)字節(jié)高位為0的內(nèi)容進(jìn)行讀取和保存。
進(jìn)一步地,在所述對(duì)電子文件中的文字內(nèi)容進(jìn)行提取,得到對(duì)應(yīng)的文檔內(nèi)容之后,還包括:
采用多層隱馬模型對(duì)所述文檔內(nèi)容進(jìn)行預(yù)處理,得到所述文檔內(nèi)容對(duì)應(yīng)的詞法分析結(jié)果;
相應(yīng)地,所述將文檔內(nèi)容與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算,具體為:
將詞法分析結(jié)果與預(yù)先構(gòu)建的敏感信息庫(kù)中的敏感信息進(jìn)行語(yǔ)義相似度計(jì)算。
進(jìn)一步地,所述采用多層隱馬模型對(duì)所述文檔內(nèi)容進(jìn)行預(yù)處理,得到所述文檔內(nèi)容對(duì)應(yīng)的分詞結(jié)果,包括:
對(duì)輸入的原始字符串進(jìn)行預(yù)處理,得到初步分詞的二元切分詞圖;
利用多層隱馬模型對(duì)原始字符串進(jìn)行未登錄詞識(shí)別,以對(duì)初步分詞的二元切分詞圖進(jìn)行修正,得到修正后的二元切分詞圖;
利用基于詞分類的隱馬模型對(duì)修正后的二元切分詞圖進(jìn)行處理,得到所述原始字符串對(duì)應(yīng)的分詞結(jié)果。
進(jìn)一步地,所述對(duì)輸入的原始字符串進(jìn)行預(yù)處理,得到初步分詞的二元切分詞圖,包括:
對(duì)所述原始字符串進(jìn)行原子切分,得到所述原始字符串對(duì)應(yīng)的原子分詞序列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽旅賁科技有限公司,未經(jīng)安徽旅賁科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010530243.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報(bào)方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置
- 文獻(xiàn)價(jià)值評(píng)估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語(yǔ)種文獻(xiàn)分類方法、裝置及存儲(chǔ)介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識(shí)別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲(chǔ)存系統(tǒng)





