[發(fā)明專利]一種文檔密級(jí)自動(dòng)識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201611086915.4 | 申請(qǐng)日: | 2016-12-01 |
| 公開(公告)號(hào): | CN106845265B | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設(shè)計(jì))人: | 謝梅;孟憲哲;姚金利;曾穎明;郝帥肖;曾淑娟 | 申請(qǐng)(專利權(quán))人: | 北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所 |
| 主分類號(hào): | G06F21/62 | 分類號(hào): | G06F21/62 |
| 代理公司: | 中國兵器工業(yè)集團(tuán)公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 密級(jí) 自動(dòng)識(shí)別 方法 | ||
本發(fā)明公開了一種文檔密級(jí)自動(dòng)識(shí)別方法,其中,包括:定義特征詞項(xiàng)、特征詞項(xiàng)分布向量、特征詞項(xiàng)庫、段落特征詞項(xiàng)空間向量、段落基準(zhǔn)庫以及文檔敏感度;進(jìn)行預(yù)處理,基于訓(xùn)練文檔,標(biāo)定訓(xùn)練文檔中各段落密級(jí)及與之對(duì)應(yīng)的初始敏感度;抽取段落的特征詞項(xiàng),建立段落空間向量,從而構(gòu)建段落基準(zhǔn)庫;在待定密的目標(biāo)文檔中對(duì)各段落進(jìn)行敏感度判定時(shí),通過計(jì)算待定密段落與段落基準(zhǔn)庫中各段落的相似度,鎖定與待定密段落相似度最大的段落,以其敏感度作為待定密段落的初始敏感值;基于待定密段落與所匹配段落的特征詞項(xiàng)所攜帶的敏感度的差異,修正待定密段落的敏感度,通過計(jì)算目標(biāo)文檔所有段落的敏感度,并獲取敏感度最高者作為目標(biāo)文檔的敏感度,確定文檔的敏感度及其對(duì)應(yīng)密級(jí)。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔安全技術(shù)領(lǐng)域,特別涉及一種文檔密級(jí)自動(dòng)識(shí)別方法。
背景技術(shù)
隨著信息化的快速發(fā)展,各類軍工企事業(yè)單位大力進(jìn)行信息化建設(shè)的同時(shí),對(duì)文檔的定密技術(shù)要求越來越高。目前,自動(dòng)定密研究很少,而傳統(tǒng)的手工標(biāo)記或分級(jí),往往效率低下且效果不理想。因此利用機(jī)器學(xué)習(xí)等技術(shù)對(duì)敏感信息進(jìn)行自動(dòng)分析、自動(dòng)定密成了一個(gè)重要而實(shí)用的技術(shù)方向。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于插件架構(gòu)的主機(jī)監(jiān)控系統(tǒng),用于解決上述現(xiàn)有技術(shù)的問題。
本發(fā)明一種文檔密級(jí)自動(dòng)識(shí)別方法,其中,包括:定義特征詞項(xiàng)、特征詞項(xiàng)分布向量、特征詞項(xiàng)庫、段落特征詞項(xiàng)空間向量、段落基準(zhǔn)庫以及文檔敏感度;進(jìn)行預(yù)處理,基于訓(xùn)練文檔,標(biāo)定訓(xùn)練文檔中各段落密級(jí)及與之對(duì)應(yīng)的初始敏感度;抽取段落的特征詞項(xiàng),建立段落空間向量,從而構(gòu)建段落基準(zhǔn)庫;初始敏感度計(jì)算階段,在待定密的目標(biāo)文檔中對(duì)各段落進(jìn)行敏感度判定時(shí),通過計(jì)算待定密段落與段落基準(zhǔn)庫中各段落的相似度,鎖定與待定密段落相似度最大的段落,以其敏感度作為待定密段落的初始敏感值;敏感度修正階段,基于待定密段落與所匹配段落的特征詞項(xiàng)所攜帶的敏感度的差異,修正待定密段落的敏感度,文檔密級(jí)確定階段,通過計(jì)算目標(biāo)文檔所有段落的敏感度,并獲取敏感度最高者作為目標(biāo)文檔的敏感度,確定文檔的敏感度及其對(duì)應(yīng)密級(jí)。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法的一實(shí)施例,其中,通過TF-IDF方法構(gòu)建向量空間模型。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法的一實(shí)施例,其中,特征詞項(xiàng)庫獲取框架獲取段落特征詞項(xiàng),特征詞項(xiàng)庫獲取框架包括:
χ2值越大,則詞項(xiàng)與段落文本敏感度相關(guān)性就大;χ2值越小,則詞項(xiàng)與段落文本敏感度相關(guān)性就小:
式(1)表示,對(duì)任意詞項(xiàng)t,其中k11代表在訓(xùn)練文本集中,所有涉密段落文本集c中包含詞t的段落文本個(gè)數(shù),k00代表在涉密段落文本集c中不包含詞項(xiàng)t的段落文本個(gè)數(shù);k01代表在非密段落文本集中包含詞t的段落文本個(gè)數(shù),k10代表在非密段落文本集中不包含詞項(xiàng)t的段落文本個(gè)數(shù);N代表兩類集合中文檔的總數(shù)量,即訓(xùn)練文本集中的段落總數(shù)N=k11+k00+k01+k10,sgn表示取正負(fù)號(hào)符號(hào);
通過對(duì)涉密段落文本集合和非涉密段落文本集合的詞項(xiàng)頻率統(tǒng)計(jì),用帶有正負(fù)符號(hào)的χ2分布計(jì)算值,最后通過閾值過濾來得到特征詞項(xiàng)。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法,其中,獲取特征詞項(xiàng)的方法包括:第一步:收集訓(xùn)練庫;第二步:對(duì)段落文本集合進(jìn)行分詞;第三步:對(duì)有實(shí)際意義的詞項(xiàng)進(jìn)行進(jìn)一步篩選,將過濾后所得詞項(xiàng)在當(dāng)前涉密段落文本中進(jìn)行詞項(xiàng)出現(xiàn)次數(shù)統(tǒng)計(jì),當(dāng)大于閾值θ的詞項(xiàng),列入候選特征詞項(xiàng);第四步:統(tǒng)計(jì)候選特征詞項(xiàng)出現(xiàn)段落數(shù)目;第五步:計(jì)算候選特征詞項(xiàng)敏感度相關(guān)性,將相關(guān)性大于閾值的詞項(xiàng)加入到特征詞項(xiàng)庫中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所,未經(jīng)北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611086915.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:坐便器的試水裝置
- 下一篇:一種接線端子快速接線裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 基于密級(jí)標(biāo)識(shí)的電子文檔訪問控制方法
- 基于密級(jí)控制的郵件安全防護(hù)方法
- 數(shù)據(jù)的刪除方法、裝置及移動(dòng)終端
- 一種涉密文件和密級(jí)標(biāo)識(shí)綁定的方法和裝置
- 一種單向網(wǎng)絡(luò)數(shù)據(jù)隔離裝置
- 一種基于密級(jí)頻道的即時(shí)通信方法
- 一種雙端USB存儲(chǔ)器及存儲(chǔ)方法
- 共享文件安全管理方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種高密級(jí)網(wǎng)并行訪問低密級(jí)網(wǎng)的系統(tǒng)
- 數(shù)據(jù)分析的方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 在帶有圖像輸入單元的便攜式終端中識(shí)別字符的方法
- 基于無線射頻RFID的檔案管理系統(tǒng)
- 一種防盜監(jiān)控系統(tǒng)的自動(dòng)識(shí)別控制設(shè)備
- 一種基于視頻識(shí)別的隧道運(yùn)行安全事件檢測系統(tǒng)
- 存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別系統(tǒng)及存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別配置方法
- 快遞物流件自動(dòng)識(shí)別分揀系統(tǒng)
- 一種基于無線技術(shù)的低功耗自動(dòng)識(shí)別終端設(shè)計(jì)方法
- 一種火車車輛、車號(hào)自動(dòng)識(shí)別裝置
- 一種火車車輛、車號(hào)自動(dòng)識(shí)別裝置及其使用方法
- 一種電商用條碼自動(dòng)識(shí)別裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





