[發明專利]通過IP巡檢網站、并判斷網站類別的方法、系統、設備及介質在審
| 申請號: | 202110222311.2 | 申請日: | 2021-02-28 |
| 公開(公告)號: | CN113157998A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 張樂平;顧明娟;吳一超;卞豪 | 申請(專利權)人: | 江蘇匠算天誠信息科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958;G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 213000 江蘇省常*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 ip 巡檢 網站 判斷 類別 方法 系統 設備 介質 | ||
1.一種通過IP巡檢網站、并判斷網站類別的方法,其特征在于,包括:
輸入IP列表,啟動爬蟲掃描,抓取目標網站的網頁內容;
判斷網站是否可訪問,將結果記錄到數據庫;
判斷網頁內容里是否有備案號,并且備案號是否可查,將結果記錄到數據庫;
提取網頁中的有效文字和圖片;
對提取的有效文字和圖片進行分類標注;
針對文字和圖片數據構建并訓練網絡模型,訓練結束后將模型參數寫入模型庫;
將網站中的網頁爬出來的圖片、文字分別作為各自對應模型的輸入,得到網頁中圖片、文字的分類預測結果,設定圖像分類結果和文字分類結果的權重;統計網站下所有圖片和文字的預測結果,產生圖片分類的分布、文字分類的分布;通過計算得分獲得最終的分類結果。
2.根據權利要求1所述的方法,其特征在于,通過python爬蟲框架scrapy結合javascript渲染服務splash抓取目標網站的網頁內容;
對提取的有效文字和圖片進行分類標注,具體為:以網頁為分組維度,圖片和文字聯合在一起標注,標注成預設的分類列表里的某個或某幾個類別。
3.根據權利要求1所述的方法,其特征在于,針對圖片數據,使用VGG NET模型;針對文字數據,使用textCNN模型,激活函數:ReLu,卷積核大小:14,15,16。
4.根據權利要求1或3所述的方法,其特征在于,圖片預測在輸入模型之前進行優化處理,將輸入的圖片調整大小、填充成n張圖片組成一個批次,進行批量預測,然后取第二層的輸出作為結果的判定,產生n個形狀為(C,J,K)的張量,取某分類值的pmap進行綜合評分判定;
最終pmap激活圖矩陣為
P=(P1+P2+...+Pn)/n
然后再求取P矩陣的亮點連通圖,如果某分類的亮塊連通圖的面積大于整體面積的50%,則視為某個類別的圖片。
5.根據權利要求4所述的方法,其特征在于,網絡模型訓練時,對圖片預處理:將原圖增廣出8張圖,提取對應的二維(r,g,b)三通道向量,圖片的高和寬是分別是224和224,得到形狀為(3,224,224)的張量;
對文字預處理:將收集的文字通過word2vector轉換成詞向量,每個詞用9維的詞向量表示,形成n*9的矩陣。
6.根據權利要求1所述的方法,其特征在于,模型訓練方法如下:
將數據集中的圖片矩陣輸入模型進行梯度下降訓練,訓練結束后將VGG NET的模型參數寫入模型庫;
將數據集中的文字矩陣輸入textCNN進行梯度下降訓練,訓練結束后將模型參數寫入模型庫。
7.根據權利要求1所述的方法,其特征在于,設定圖像分類結果權重是a,文字分類結果的權重是b,a+b=1;統計一個網站下所有圖片和文字的預測結果,產生一個圖片分類的分布、文字分類的分布,統計出分類列表里圖片分類計數最高的Yn1,計數為Cn1;統計出分類列表里文字計數分類最高的Yn2,計數為Cn2;最終計算得分:
rp=Cn1·a
rt=Cn2·b
其中rp、rt為圖片、文字的得分;
以分類Yn1、Yn2中得分高的為最終分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇匠算天誠信息科技有限公司,未經江蘇匠算天誠信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110222311.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種燃氣鍋爐富氧燃燒供氣方法及裝置
- 下一篇:時鐘頻率異常偏差檢測電路





