[發明專利]一種文檔密級自動識別方法有效
| 申請號: | 201611086915.4 | 申請日: | 2016-12-01 |
| 公開(公告)號: | CN106845265B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 謝梅;孟憲哲;姚金利;曾穎明;郝帥肖;曾淑娟 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 中國兵器工業集團公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 密級 自動識別 方法 | ||
1.一種文檔密級自動識別方法,其特征在于,包括:
定義特征詞項、特征詞項分布向量、特征詞項庫、段落特征詞項空間向量、段落基準庫以及文檔敏感度;
進行預處理,基于訓練文檔,標定訓練文檔中各段落密級及與之對應的初始敏感度;抽取段落的特征詞項,建立段落特征詞項空間向量,從而構建段落基準庫;
初始敏感度計算階段,在待定密的目標文檔中對各段落進行敏感度判定時,通過計算待定密段落與段落基準庫中各段落的相似度,鎖定與待定密段落相似度最大的段落,以其敏感度作為待定密段落的初始敏感值;敏感度修正階段,基于待定密段落與所匹配段落的特征詞項所攜帶的敏感度的差異,修正待定密段落的敏感度,文檔密級確定階段,通過計算目標文檔所有段落的敏感度,并獲取敏感度最高者作為目標文檔的敏感度,確定文檔的敏感度及其對應密級;
特征詞項庫獲取框架獲取段落特征詞項,特征詞項庫獲取框架包括:
χ2值越大,則詞項與段落文本敏感度相關性就大;χ2值越小,則詞項與段落文本敏感度相關性就小:
式(1)表示,對任意詞項t,其中k11代表在訓練文本集中,所有涉密段落文本集c中包含詞t的段落文本個數,k00代表在涉密段落文本集c中不包含詞項t的段落文本個數;k01代表在非密段落文本集中包含詞t的段落文本個數,k10代表在非密段落文本集中不包含詞項t的段落文本個數;N代表兩類集合中文檔的總數量,即訓練文本集中的段落總數N=k11+k00+k01+k10,sgn表示取正負號符號;
通過對涉密段落文本集合和非涉密段落文本集合的詞項頻率統計,用帶有正負符號的χ2分布計算值,最后通過閾值過濾來得到特征詞項。
2.如權利要求1所述的文檔密級自動識別方法,其特征在于,通過TF-IDF方法構建向量空間模型。
3.如權利要求1所述的文檔密級自動識別方法,其特征在于,抽取段落的特征詞項的方法包括:
第一步:收集訓練庫;
第二步:對段落文本集合進行分詞;
第三步:對有實際意義的詞項進行進一步篩選,將過濾后所得詞項在當前涉密段落文本中進行詞項出現次數統計,當大于閾值θ的詞項,列入候選特征詞項;
第四步:統計候選特征詞項出現段落數目;
第五步:計算候選特征詞項敏感度相關性,將相關性大于閾值的詞項加入到特征詞項庫中。
4.如權利要求1所述的文檔密級自動識別方法,其特征在于,訓練文檔的密級由該文檔所標定的敏感度標定,敏感度在[90-100]范圍內為絕密、敏感度在[80-90]范圍內為機密、敏感度在[70-80]范圍內為秘密、敏感度在[60-70]范圍內為內部、敏感度在[50-60]范圍內為非密。
5.如權利要求1所述的文檔密級自動識別方法,其特征在于,進行預處理,基于訓練文檔,標定訓練文檔中各段落密級及與之對應的初始敏感度包括:依次掃描訓練庫中各文本的每個段落文本,選定任一訓練文檔S,對其各段落進行密級和初始敏感度的標定;對于當前訓練段落文本,根據特征詞項庫獲取框架,提取該段落的若干特征詞項,對每個特征詞項,計算詞項的權值,由所有特征詞項及其權值構成當前訓練段落特征詞項空間向量,以此表示段落基本特征信息;完成訓練庫中所有文本的所有段落特征詞項空間向量的構建及其相關數據結構的初始化,形成段落基準庫;訓練文檔的敏感度由該文檔所有段落中敏感度最高的段落的敏感度決定,由此以標定目標文檔的敏感度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611086915.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:坐便器的試水裝置
- 下一篇:一種接線端子快速接線裝置





