[發明專利]基于卷積神經網絡的賭博網站識別方法和系統在審
| 申請號: | 201711070078.0 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN108052523A | 公開(公告)日: | 2018-05-18 |
| 發明(設計)人: | 陳立國;張躍冬;袁曉彤;耿光剛;延志偉 | 申請(專利權)人: | 中國互聯網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06Q50/34 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100190 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 賭博 網站 識別 方法 系統 | ||
本發明涉及一種基于卷積神經網絡的賭博網站識別方法和系統。該方法包括以下步驟:批量獲取網站的網頁截圖;標注網頁截圖的類別;以標注的網頁截圖作為訓練數據,訓練卷積神經網絡模型;利用訓練好的卷積神經網絡模型對待預測網站的網頁截圖進行識別,判斷其是否為賭博網站。該系統包括批量網頁截圖模塊、網站類別標注模塊、模型訓練模塊和預測模塊。本發明通過深度神經網絡對網站網頁截圖的特征進行學習,使用的是整個網站的截圖,區別于使用網頁里面的圖片進行分類的方法,并且不再依靠網頁源碼中的文本信息,從根本上解決了該類不良網站的識別問題。
技術領域
本發明屬于信息技術領域,涉及賭博網站檢測技術,具體涉及一種基于卷積神經網絡的賭博網站識別方法和系統。
背景技術
隨著計算機技術的飛速發展,互聯網走進了千家萬戶,但網絡給人們帶來信息和方便的同時,也帶來了負面的信息。各種宣揚色情、暴力、賭博的不良內容充斥著網絡,不僅嚴重污染著未成年人的心靈,也破壞了社會風氣。
現有的針對賭博網站的檢測技術主要包括提取網頁的文本內容,對文本進行預處理、分詞、特征選擇、分類訓練等步驟,通過基于文本的機器學習方法對網頁進行分類,從而實現對網站分類的目的。
然而隨著不良網站的不斷迭代,基于多重JS加載形式的網站越來越多,由于難以提取文本內容,原本基于文本的檢測方法難以奏效。又由于不良網站的模板不斷迭代,基于文本的方法需要根據不同的模板通過人工不斷更新提取文本的規則,費時費力。
發明內容
本發明提供一種基于卷積神經網絡的賭博網站識別方法和系統,能夠解決文本特征方法難以處理新出現的網站模板的問題,提高賭博網站檢測的準確率。
判斷一個網站是否為賭博網站,標準在于網頁加載完成后是否具有賭博內容。因此本發明通過深度神經網絡對網站網頁截圖的特征進行學習,使用的是整個網站的截圖,區別于使用網頁里面的圖片進行分類的方法,并且不再依靠網頁源碼中的文本信息,從根本上解決了該類不良網站的識別問題。
本發明采用的技術方案如下:
一種基于卷積神經網絡的賭博網站識別方法,包括以下步驟:
批量獲取網站的網頁截圖;
標注網頁截圖的類別;
以標注的網頁截圖作為訓練數據,訓練卷積神經網絡模型;
利用訓練好的卷積神經網絡模型對待預測網站的網頁截圖進行識別,判斷其是否為賭博網站。
進一步地,對標注的網站網頁截圖進行預處理操作,以便于進行模型訓練。
進一步地,所述預處理操作包括轉灰度操作、縮放操作和/或白化操作。
進一步地,所述獲取網站的網頁截圖包括使用多線程的網頁加載渲染工具快速地實現大批量網頁的加載和渲染,從而快速的獲取網站的網頁截圖。
進一步地,采用人工方式標注網站網頁截圖的類別。
進一步地,所述卷積神經網絡模型包括:輸入層、兩層卷積層、兩層池化層、扁平化層、兩層隨機丟棄層和全連接層。
一種基于卷積神經網絡的賭博網站識別系統,其包括:
批量網頁截圖模塊,用于批量獲取網站的網頁截圖;
網站類別標注模塊,用于標注網頁截圖的類別;
模型訓練模塊,用于以標注的網頁截圖作為訓練數據,訓練卷積神經網絡模型;
預測模塊,用于利用訓練好的卷積神經網絡模型對待預測網站的網頁截圖進行識別,判斷其是否為賭博網站。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國互聯網絡信息中心,未經中國互聯網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711070078.0/2.html,轉載請聲明來源鉆瓜專利網。





