[發明專利]基于內容相關性的文件涉密內容檢索、密級判定及標注方法有效
| 申請號: | 201210296061.8 | 申請日: | 2012-08-20 |
| 公開(公告)號: | CN102819604A | 公開(公告)日: | 2012-12-12 |
| 發明(設計)人: | 徐亮;譚煌 | 申請(專利權)人: | 徐亮;譚煌 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 長沙正奇專利事務所有限責任公司 43113 | 代理人: | 何為;李宇 |
| 地址: | 410081 湖南省長*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 相關性 文件 檢索 密級 判定 標注 方法 | ||
技術領域
本發明涉及對電子文檔里的具體內容進行基于內容相關性的文件涉密內容檢索、密級判定和標注方法。
背景技術
在現在的保密工作當中,對于涉密文件的管理和使用是很重要的一個環節,而其中對于文件密級的判定則是一項很重要的工作。現在的密級判定全部依賴于人工來實現,使得判定工作的周期過長、準確性不高,而且密級的確定涉及到整個文件,這就給涉密文件中一些非涉密內容的引用帶來了極大的不便。為此能夠依靠計算機,實現自動化且有效的判斷一個文件的內容是否涉密、哪些具體內容涉密、涉密內容的密級如何的方法就顯得尤為重要了。現在的文件涉密內容檢索,包括一個已公開的發明專利申請——計算機系統涉密文件搜索方法(申請號:200910156814.3,申請公布號:CN?101763394A),其采用的是對涉密關鍵詞的匹配或者是通過對不同密級、不同類型、不同行業的涉密文件分析出特征點,然后對這些特征點實現組合搜索。但這種搜索方法存在一定的局限性,原因如下:
1.準確性不高。有些關鍵詞和特征點只有在某種特定的語境下才涉密,而簡單的關鍵詞和特征點的匹配只能找出文件中是否含有該詞語和特征點,并不能有效的判斷該處文字的語境,因此,很多時候找出來的“涉密內容”實際上并不涉密。
2.完整性不強。文件內容的表達方式多種多樣,包括文字、圖片、視頻、音頻等,僅僅文字方面,對一個事物的表述方式就千差萬別,這就使得無法用一些固定的關鍵詞或特征點來涵蓋所有的涉密信息,關鍵詞和特征點只能起到提綱的作用,基于簡單的搜索匹配的方法有可能會漏掉很多不包含關鍵詞和特征點,但卻包含涉密信息的內容,給保密工作帶來隱患。
3.搜索結果的可用性不強。采用已有的方法查找出的文件,用戶只能知道整個文件是涉密還是不涉密,并不能具體的給出文件中究竟哪個詞語、哪個句子、哪個段落的內容涉密、涉密內容的密級分別是什么,這就給今后引用該文件中的內容造成了很大的不便。
4.不具備自動學習的功能。隨著社會的發展,不斷的會有新的文件、新的關鍵詞、新的特征點出現。而已有的方法,只能是在已有的涉密文件的基礎上來進行搜索,而沒有辦法涉及到新出現的涉密內容。
發明內容
本發明目的在于,針對現有技術中的問題,提出一種基于內容相關性的涉密內容檢索、密級判定及標注方法,其可根據文件的上下文內容來進行智能化的語義檢索,能準確地檢索出文件中的涉密信息、確定涉密內容的范圍、密級,實現對文本內容中涉密內容的準確定位和范圍界定,幫助定密負責人和保密部門的工作人員進行高效的定密和保密檢查工作,實現定密的科學化、合理化、規范化、高效化;還可以對檢索出來的涉密內容進行標注,方便今后對該文件的引用。
為了實現上述目的,本發明提出了基于內容相關性進行涉密內容檢索、密級確定及標注的方法,其依次包括以下步驟:
A、加載步驟:加載文檔所屬范圍的涉密關鍵詞及匹配規則庫、本體庫和定密規則庫;
B、解析步驟:對文檔中的文字進行分詞操作,并解析出該文檔所包含圖片、視頻、音頻中隱含的信息;
C、檢索步驟:對解析后的文檔進行基于內容相關性的語義檢索,根據語義關聯度的大小來判斷文檔中相關信息與涉密關鍵詞的內容相關性的大小,檢索出文檔中的涉密內容及該涉密內容在文檔中的范圍;
D、密級確定步驟:根據檢索結果和所屬范圍的定密規則庫,確定文檔中涉密內容的密級;
E、標注步驟:對文檔中確定了密級的涉密內容進行標注,生成標注文檔。
作為優選,本發明還包括步驟F:根據對整個文件的密級標注進行分析統計,給出文件中各個密級內容的統計信息,依據設定的文檔密級確定規則給出整個文檔的密級判定,并對其進行標注。
作為優選,本發明還包括步驟G:從文檔中提取相關信息,如提取相應的關鍵字、生成內容摘要、給出該文檔應屬的部門、定密時間等,制成該文檔的定密審批表和加了密級標注的文檔。
作為優選,本發明基于內容相關性進行涉密內容檢索、密級確定及標注的方法還包括自學習步驟:對不屬于已有范圍的文檔,對文檔進行完檢索后,提取相應的關鍵字和匹配規則,加入到默認關鍵詞詞庫和匹配規則庫當中。
作為優選,所述加載步驟中文檔所屬范圍的涉密關鍵詞及匹配規則庫是指對屬于某一特定領域范圍、某一特定部門、行業中的已知的所有涉密關鍵詞集合;與該行業、領域判斷是否是涉密信息的相關文字的語法、語義規則的集合以及相關圖片涉密信息的匹配規則集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于徐亮;譚煌,未經徐亮;譚煌許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210296061.8/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





