[發明專利]一種CDN及CACHE緩存不良信息內容審計的方法在審
| 申請號: | 201811264583.3 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109446461A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 章林光 | 申請(專利權)人: | 成都思維世紀科技有限責任公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/953;G06F16/955 |
| 代理公司: | 成都知集市專利代理事務所(普通合伙) 51236 | 代理人: | 楊柳 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不良信息 內容審計 文件解析模塊 緩存 掃描 數據處理模塊 數據傳輸接口 網頁內容抓取 智能圖像識別 數據格式化 模擬人腦 爬蟲模塊 神經網絡 審計過程 網頁內容 文件讀取 學習算法 大數據 數據包 迭代 構建 圖像 傳遞 審計 覆蓋 圖片 | ||
本發明公開了一種CDN及CACHE緩存不良信息內容審計的方法,方法步驟如下,A.通過數據傳輸接口獲取數據包;B.文件解析模塊數據格式化;C.文件解析模塊生成待掃描URL傳遞給網頁內容抓取模塊;D.數據處理模塊利用智能圖像識別模型對圖片進行特定圖像的識別,完成對CDN/cache內容的識別審計過程。與現有技術相比,本發明提升了內容審計覆蓋業務范圍,支持CDN/webcache業務不良信息審計,爬蟲模塊可直接通過文件讀取待掃描URL進行內容爬掃,獲取網頁內容。采用深度學習算法,通過模擬人腦神經網絡,構建具有高層次表現力的模型,通過大數據持續訓練、頻繁的迭代,精確度可達到99.5%。
技術領域
本發明涉及一種,尤其涉及一種CDN及CACHE緩存不良信息內容審計的方法。
背景技術
目前內容安全審計主要針對IDC機房托管的網站開展,通過網絡爬蟲手段,對網站進行逐層掃描并獲取網頁文字、圖片內容進行色情、暴恐、反動、博彩等類型的識別。
隨著運營商的業務不斷發展,為提升用戶訪問體驗,CDN和webcache作為新的業務形態出現,其共同點都是緩存了一些具體網頁內容,但相互之間并無實際聯系,不能通過網絡爬蟲進行關聯爬掃,現有技術手段存在以下問題:
(1)監測對象覆蓋不足
只能對IDC提供的域名清單,以域名為入口進行逐層爬掃。
(2)無日志URL提取分析手段
需要通過頁面,按照固定格式導入待掃描域名清單,不能從海量日志文件中主動提取URL鏈接信息。因鏈接數量太大,也不能通過錄入方式導入。
(3)色情圖片識別技術誤報較高
采用膚色算法識別色情圖片,通過圖片RGB值識別膚色比例、通過建模識別異常動作、敏感部位,誤報和漏報都較高,已無法滿足當前審計需求。
發明內容
本發明的目的就在于提供一種解決了上述問題的CDN及CACHE緩存不良信息內容審計的方法。
為了實現上述目的,本發明采用的技術方案是:一種CDN及CACHE緩存不良信息內容審計的方法,方法步驟如下,
A.通過數據傳輸接口獲取CDN/cache生成的訪問日志文件zip數據包,由文件解析模塊進行日志文件提取;
B.文件解析模塊對ZIP包內日志文件進行分析,獲取文本、圖片URL鏈接、域名、時間、IP地址、以及字段信息,進行數據格式化;
C.文件解析模塊將URL進行集中統一去重后,生成待掃描URL傳遞給網頁內容抓取模塊,網頁抓取模塊模擬訪問URL,并獲取對應的圖片、文字信息;
D.數據處理模塊利用智能圖像識別模型對圖片進行特定圖像的識別,利用關鍵詞匹配及權重分析技術對文字進行關鍵字匹配,并根據設定的策略生存疑似違規并告警,完成對CDN/cache內容的識別審計過程。
作為優選,步驟A中,數據傳輸接口通過FTP方式從CDN/cache獲取日志文件、包括所有文本、圖片URL訪問日志信息。
作為優選,步驟A中,日志文件提取后采用日志信息記錄模塊進行記錄,文件解析模塊針對每個壓縮包里面的日志文件,逐行分析每條日志記錄,提取關鍵信息字段。
作為優選,步驟C中,網頁抓取模塊進行網頁主動抓取掃描的方法如下:
a.先進行網頁掃描任務調度
采用用戶驅動和深度遍歷搜索兩種任務調度模式采集網頁信息;
b.網頁內容抓取
根據任務調度器所分發的url,使用頁面掃描器對每個url所對應的資源進行快速抓取;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都思維世紀科技有限責任公司,未經成都思維世紀科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811264583.3/2.html,轉載請聲明來源鉆瓜專利網。





