[發明專利]一種CDN及CACHE緩存不良信息內容審計的方法在審
| 申請號: | 201811264583.3 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109446461A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 章林光 | 申請(專利權)人: | 成都思維世紀科技有限責任公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/953;G06F16/955 |
| 代理公司: | 成都知集市專利代理事務所(普通合伙) 51236 | 代理人: | 楊柳 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不良信息 內容審計 文件解析模塊 緩存 掃描 數據處理模塊 數據傳輸接口 網頁內容抓取 智能圖像識別 數據格式化 模擬人腦 爬蟲模塊 神經網絡 審計過程 網頁內容 文件讀取 學習算法 大數據 數據包 迭代 構建 圖像 傳遞 審計 覆蓋 圖片 | ||
1.一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:方法步驟如下,
A.通過數據傳輸接口獲取CDN/cache生成的訪問日志文件zip數據包,由文件解析模塊進行日志文件提取;
B.文件解析模塊對ZIP包內日志文件進行分析,獲取文本、圖片URL鏈接、域名、時間、IP地址、以及字段信息,進行數據格式化;
C.文件解析模塊將URL進行集中統一去重后,生成待掃描URL傳遞給網頁內容抓取模塊,網頁抓取模塊模擬訪問URL,并獲取對應的圖片、文字信息;
D.數據處理模塊利用智能圖像識別模型對圖片進行特定圖像的識別,利用關鍵詞匹配及權重分析技術對文字進行關鍵字匹配,并根據設定的策略生存疑似違規并告警,完成對CDN/cache內容的識別審計過程。
2.根據權利要求1所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:步驟A中,數據傳輸接口通過FTP方式從CDN/cache獲取日志文件、包括所有文本、圖片URL訪問日志信息。
3.根據權利要求1所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:步驟A中,日志文件提取后采用日志信息記錄模塊進行記錄,文件解析模塊針對每個壓縮包里面的日志文件,逐行分析每條日志記錄,提取關鍵信息字段。
4.根據權利要求1所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:步驟C中,網頁抓取模塊進行網頁主動抓取掃描的方法如下:
a.先進行網頁掃描任務調度
采用用戶驅動和深度遍歷搜索兩種任務調度模式采集網頁信息;
b.網頁內容抓取
根據任務調度器所分發的url,使用頁面掃描器對每個url所對應的資源進行快速抓取;
c.網頁內容關鍵字匹配計算
對于所獲取到的網頁首先進行分類,將文本內容單獨提取出來進行關鍵字匹配計算,根據匹配結果對網頁進行定性標記。
5.根據權利要求4所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:進行網頁內容抓取時,
1)采用異步并發獲取資源
頁面掃描器采用異步的多連接資源獲取模型,并發獲取多個url所指向的資源;
2)靈活的配置目標資源的種類和性質
通過設置頁面掃描器啟動文件中的正則表達式,可以令掃描器在獲取過程中迅速放棄不需要處理的資源,并對獲取到的資源進行分類。
3)將圖片類的資源進行內容存儲以及結構化信息的記錄;
4)對文本內容進行解析,得到其中的子鏈接,并進行關鍵字匹配計算。
6.根據權利要求1所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:步驟D中,數據處理模塊內設數據掃描任務管理模塊,數據掃描任務管理模塊對提取的文本、圖片URL建立掃描任務,實現網頁的快速掃描和內容提取。
7.根據權利要求6所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:所述數據掃描任務管理模塊進行掃描的方式為:
a.以URL為單位對待掃描文本、圖片URL進行分類存放,形成待掃描URL文件,并建立掃描任務標示;
b.利用統一調度機制對掃描集群運行狀態進行分析,將待掃描URL文件發送到負載低的設備進行處理,并對已分配URL文件進行標示;
c.不斷更新URL掃描狀態和掃描集群狀態,持續進行掃描任務分配。
8.根據權利要求1所述的一種CDN及CACHE緩存不良信息內容審計的方法,其特征在于:使用深度卷積神經網絡進行圖像理解,卷積神經網絡通過對神經元之間的連接根據相似性進行過濾,使圖像處理在計算層面可控,實現智能精準識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都思維世紀科技有限責任公司,未經成都思維世紀科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811264583.3/1.html,轉載請聲明來源鉆瓜專利網。





