[發明專利]動態自適應網絡敏感信息檢測方法及裝置有效
| 申請號: | 201811085661.3 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN109284441B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 魏晗;陳剛;郭志剛;唐永旺;席耀一;袁江林 | 申請(專利權)人: | 中國人民解放軍戰略支援部隊信息工程大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/31 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 周艷巧 |
| 地址: | 450000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 自適應 網絡 敏感 信息 檢測 方法 裝置 | ||
1.一種動態自適應網絡敏感信息檢測方法,其特征在于,包含如下內容:
針對采集到的網絡敏感文本流,通過構建倒排索引和進行多關鍵詞檢索獲取滿足過濾規則的文檔列表;
針對獲取到的文檔列表,依據用戶需求程度并通過關鍵詞評分獲取文檔綜合得分,依據綜合得分對互聯網敏感信息進行檢測;
通過構建倒排索引和進行多關鍵詞檢索獲取滿足過濾規則的文檔列表,包括如下內容:
設置啟動開關,滿足批處理操作條件時,通過觸發啟動開關對采集到的網絡敏感文本流進行批量處理獲取滿足過濾規則的文檔列表;批處理操作條件為預設批處理操作時間間隔,或為未處理文檔達到預設規模;多關鍵檢索過程中,通過邏輯運算進行關鍵詞組合來構建過濾規則;
以詞項為鍵值構建文檔數據集的內存倒排索引,然后以過濾規則為查詢對象,解析過濾規則得到多個檢索關鍵詞,根據過濾規則的組合方式對多個關鍵詞的檢索結果進行融合得到滿足該過濾規則的文檔列表;遍歷過濾規則,得到滿足過濾規則的文檔集合,清空內存倒排索引;
依據用戶需求程度并通過關鍵詞評分獲取文檔綜合得分,包含如下內容:
針對樣本數據庫中文檔集合,利用詞頻逆文檔頻率獲取關鍵詞在文檔集合中的權重,并通過該權重及關鍵詞在文檔集合中出現頻次和過濾規則中預先設定的關鍵詞預設分值來獲取過濾規則中關鍵詞的基礎得分;
針對實際獲取到的文檔列表,通過文檔列表中包含關鍵詞的文檔數及樣本數據庫文檔集合包含關鍵詞的文檔數來修正關鍵詞的基礎評分,通過實時獲取到的網絡敏感文本流來動態修正關鍵詞基礎評分,動態修正公式表示為:
其中,Scorej為修正后的分值,Snj為樣本數據集中包含關鍵詞Kj的文檔數,BaseScorej為關鍵詞的基礎得分,nj為文檔集合中包含關鍵詞Kj的文檔數量;
依據關鍵詞基礎評分,并通過過濾規則中關鍵詞組合邏輯來獲取最終判定的文檔得分。
2.根據權利要求1所述的動態自適應網絡敏感信息檢測方法,其特征在于,對采集到的網絡敏感文本流,首先進行預處理,過濾出包含敏感詞變形體的文本信息,其中,敏感詞變形體至少包含敏感詞火星文變形和敏感詞散光字變形;敏感詞火星文變形的過濾中,通過面向信息檢索的中文分詞,并以同時包含單字和多字的分詞結果作為索引詞項來構建文檔的倒排索引,在綜合過濾規則查詢結果時,自動過濾火星文變形;敏感詞散光字變形的過濾中,通過構建散光字字典,將過濾規則進行變形擴展后再進行檢索過濾。
3.根據權利要求2所述的動態自適應網絡敏感信息檢測方法,其特征在于,依據過濾規則中關鍵詞組合邏輯獲取最終判定的文檔得分中,對于只包含兩個關鍵詞的文檔,若過濾規則中關鍵詞是邏輯與的關系,則最終判定的文檔得分為修正后的兩個關鍵詞基礎得分之和;若過濾規則中關鍵詞是邏輯或的關系,則最終判定的文檔得分為在修正后的兩個關鍵詞基礎得分中選取最大值;對于包含多個關鍵詞的文檔,則按照過濾規則中關鍵詞邏輯關系順序依次推導來獲取最終判定的文檔得分;對于存在多個過濾規則的文檔,則分別計算每個過濾規則的得分,然后取其中最大值作為最終判定的文檔得分。
4.一種動態自適應網絡敏感信息檢測裝置,其特征在于,基于權利要求1所述的動態自適應網絡敏感信息檢測方法實現,包含:
過濾模塊,針對采集到的網絡敏感文本流,通過構建倒排索引和進行多關鍵詞檢索獲取滿足過濾規則的文檔列表;
評分模塊,針對獲取到的文檔列表,依據用戶需求程度并通過關鍵詞評分獲取文檔綜合得分,依據綜合得分對互聯網敏感信息進行檢測。
5.根據權利要求4所述的動態自適應網絡敏感信息檢測裝置,其特征在于,所述的過濾模塊包含索引子模塊、開關子模塊和檢索子模塊,其中,
索引子模塊,將采集到的網絡敏感文本流作為檢索文檔數據集,以詞項為鍵值建立檢索文檔數據集的內存倒排索引;
開關子模塊,用于通過設置啟動開關,針對滿足預設批處理操作條件的情形,通過啟動開關觸發檢索子模塊;
檢索子模塊,用于通過對過濾規則中關鍵詞進行邏輯組合來獲取滿足過濾規則的文檔列表。
6.根據權利要求4所述的動態自適應網絡敏感信息檢測裝置,其特征在于,所述的評分模塊包含基礎評分子模塊,評分修正子模塊和綜合判定子模塊,其中,
基礎評分子模塊,用于針對樣本數據庫中文檔集合,利用詞頻逆文檔頻率獲取關鍵詞在文檔集合中的權重,并通過該權重及關鍵詞在文檔集合中出現頻次和過濾規則中預先設定的關鍵詞預設分值來獲取過濾規則中關鍵詞的基礎得分;
評分修正子模塊,用于針對實際獲取到的文檔列表,通過文檔列表中包含關鍵詞的文檔數及樣本數據庫文檔集合包含關鍵詞的文檔數來修正關鍵詞的基礎評分;
綜合判定子模塊,用于依據修正后的關鍵詞基礎評分,并通過過濾規則中關鍵詞組合邏輯來獲取最終判定的文檔得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍戰略支援部隊信息工程大學,未經中國人民解放軍戰略支援部隊信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811085661.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建材信息檢索系統以及檢索方法
- 下一篇:融合協同過濾的線性回歸推薦方法





