[發明專利]輔助定密方法及裝置有效
| 申請號: | 202010111504.6 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111353301B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 王天祥;朱永強;江雪 | 申請(專利權)人: | 成都網安科技發展有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06F40/30;G06F40/216;G06F16/33;G06F40/253;G06F21/60 |
| 代理公司: | 成都極刻智慧知識產權代理事務所(普通合伙) 51310 | 代理人: | 唐維虎 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輔助 方法 裝置 | ||
本申請實施例提供一種輔助定密方法及裝置,通過非定密文本段的發生概率范圍表從已定密文檔中提取出關鍵段以考慮已定密文檔中的重點部分,即對于涉密而言是否關鍵有效,并由此計算已定密文檔與任務文檔之間的結構化相似度,從而可以有效提高定密結果的準確性,更好地幫助定密的工作人員更高效更準確地完成定密工作。
技術領域
本申請涉及數據分析技術領域,具體而言,涉及輔助定密方法及裝置。
背景技術
目前傳統的輔助定密方案一般將文檔進行簡單分段后直接進行相似度計算,從而對潛在涉密信息進行定密建議,但是此種方案得到的定密結果缺乏準確性,人工作業的工作量較大。因此,需要尋求一種輔助定密系統來更好地幫助定密的工作人員更高效更準確地完成定密工作。
發明內容
有鑒于此,本申請的目的在于提供一種輔助定密方法及裝置,可以有效提高定密結果的準確性,更好地幫助定密的工作人員更高效更準確地完成定密工作。
根據本申請的第一方面,提供一種輔助定密方法,應用于電子設備,所述電子設備預先配置有非定密文本段的發生概率范圍表,所述方法包括:
對任務文檔進行分段,得到由多個任務分段組成的第一分段集合,并對已定密文檔進行分段,得到由多個定密分段組成的第二分段集合;
根據所述非定密文本段的發生概率范圍表從所述第二分段集合中提取出關鍵段并作為所述已定密文檔的關鍵段集合;
將所述第一分段集合中的每個任務分段與所述關鍵段集合中的每個關鍵段進行匹配,并根據匹配結果計算所述任務文檔與所述已定密文檔之間的結構化相似度;
根據所述結構化相似度生成所述任務文檔的輔助定密結果。
在第一方面的一種可能的實施方式中,所述對任務文檔進行分段,得到由多個任務分段組成的第一分段集合,并對已定密文檔進行分段,得到由多個定密分段組成的第二分段集合的步驟,包括:
根據預設噪聲表去除所述任務文檔和所述已定密文檔中的噪聲,并修正所述任務文檔和已定密文檔中各文本段的偏移;
根據語義劃分的標點符號,對去除噪聲后的所述任務文檔進行分段,得到所述第一分段集合,并對去除噪聲后的所述已定密文檔進行分段,得到所述第二分段集合。
在第一方面的一種可能的實施方式中,所述根據語義劃分的標點符號,對去除噪聲后的所述任務文檔進行分段,得到所述第一分段集合,并對去除噪聲后的所述已定密文檔進行分段,得到所述第二分段集合的步驟,包括:
根據語義劃分的第一類標點符號對去除噪聲后的所述任務文檔和所述已定密文檔進行第一次分段,得到所述任務文檔的第一初始分段集合和所述已定密文檔的第二初始分段集合,其中,所述第一類標點符號包括中文句號、中文感嘆號、中文問號、英文問號、英文感嘆號、制表符、換行符中的一種或者多種組合;
針對所述任務文檔的第一初始分段集合和所述已定密文檔的第二初始分段集合中的每一個分段,判斷該分段的段落長度,如果所述段落長度小于第一設定長度,則將該分段與該分段的下一分段組合成為一個組合分段;
當所述組合分段的長度不大于第二設定長度時,將該組合分段確定一個可用分段;
當所述組合分段的長度大于第二設定長度,且所述組合分段中不包含語義劃分的第二類標點符號時,則對所述組合分段進行第二次分段,以使第二次分段后的所述組合分段的長度不大于第二設定長度,并將第二次分段后的分段確定為可用分段,其中,所述第二類標點符號包括中文分號、中文逗號、中文頓號、英文逗號、英文分號中的一種或者多種組合。
在第一方面的一種可能的實施方式中,所述根據所述非定密文本段的發生概率范圍表從所述第二分段集合中提取出關鍵段并作為所述已定密文檔的關鍵段集合的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都網安科技發展有限公司,未經成都網安科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010111504.6/2.html,轉載請聲明來源鉆瓜專利網。





