[發明專利]一種結合深度學習和關鍵詞因子的不良信息監測方法在審
| 申請號: | 202011514673.0 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112507086A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 何秋蕓;高寧;舒玉鳳;柯細河 | 申請(專利權)人: | 中電福富信息科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/953 |
| 代理公司: | 福州君誠知識產權代理有限公司 35211 | 代理人: | 彭東 |
| 地址: | 350000 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 深度 學習 關鍵詞 因子 不良信息 監測 方法 | ||
本發明公開一種結合深度學習和關鍵詞因子的不良信息監測方法,對樣本數據進行不良信息的關鍵詞提取和特殊規則提??;根據關鍵詞的影響力為每個關鍵詞歸類并確定影響分值,對于監測常信息進行各類不良關鍵詞的影響分值的綜合分計算,分別判斷各類影響分值的綜合分是否超過設定閾值,并將不良信息歸入超過閾值的對應分類。本發明將深度學習和關鍵詞影響因子相結合的算法組合,其即有深度學習算法的優點,也不缺關鍵詞匹配、專家規則的直指要害。
技術領域
本發明涉及互聯網安全技術領域,尤其涉及一種結合深度學習和關鍵詞因子的不良信息監測方法。
背景技術
目前使用比較廣泛的不良信息檢測技術是關鍵詞匹配或者模糊匹配等方法,更進一步的是通過相關領域的專家進行不良信息的出現情況,人工整理出一套不良信息檢測規則集。此方法的缺點1、關鍵詞匹配方法會有很多誤檢的情況出現;2、專家規則集覆蓋面有限,抽取的是和不良信息強相關的規則,和不良信息相關的一些弱相關規則可以因為相關性較少而被舍棄或漏掉,誤檢率較高。
采用深度學習的方法進行不良信息檢測,在訓練樣本集有限的情況下,當不良信息較為隱蔽(不良信息較短,穿插在不同句子之間)時,深度學習算法有時候會檢測失敗,認為此信息正常;目前反不良信息檢測的手段越來越高,單純的使用某種工具都有其局限性。
深度學習的局限性體現在以下方面:
1、如果想深度學習算法的效果比較理想,其需要的訓練樣本量在百萬級別(樣本的前處理和半人工標簽是個巨大的工作量);
2、如果訓練樣本不均衡、受人的主觀影響較多時,訓練出來的算法會出現一定的偏好;
3、反不良信息檢測的手段越來越多,技術也越來越高;深度學習是先學習后使用的邏輯,在不良信息檢測時有一定的局限性。
發明內容
本發明的目的在于提供一種結合深度學習和關鍵詞因子的不良信息監測方法。
本發明采用的技術方案是:
一種結合深度學習和關鍵詞因子的不良信息監測方法,其包括以下步驟:
步驟1,對樣本數據進行不良信息的關鍵詞提取和特殊規則提取;
步驟2,根據關鍵詞的影響力為每個關鍵詞歸類并確定影響分值;
步驟3,對于監測常信息進行各類不良關鍵詞的影響分值的綜合分計算,
步驟4,分別判斷各類影響分值的綜合分是否超過設定閾值,并將不良信息歸入超過閾值的對應分類。
進一步地,步驟1中通過深度學習進行不良信息的強規則和弱規則的提取,以便根據訓練好的模型得到的規則集進行文本的不良信息檢測測試。
進一步地,步驟2中關鍵詞分等級的分值根據影響力由小到大分別為0.02、0.05、0.1、0.21和0.31。
進一步地,步驟3中信息分類包括賭博類、色情類和正常類,具體的歸類方法如下:
步驟3-1,判斷不良信息的賭博類分數是否大于賭博閾值;是則,將該不良信息歸入賭博類;否則,執行步驟3-2;
步驟3-2,判斷不良信息的色情類分數是否大于色情閾值;是則,將該不良信息歸入色情類;否則,執行步驟3-3;
步驟3-3,更新正常的置信率并將該不良信息歸入正常類。
進一步地,賭博閾值和色情閾值均為0.8。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電福富信息科技有限公司,未經中電福富信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011514673.0/2.html,轉載請聲明來源鉆瓜專利網。





