[發(fā)明專利]通過IP巡檢網(wǎng)站、并判斷網(wǎng)站類別的方法、系統(tǒng)、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202110222311.2 | 申請日: | 2021-02-28 |
| 公開(公告)號: | CN113157998A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計)人: | 張樂平;顧明娟;吳一超;卞豪 | 申請(專利權(quán))人: | 江蘇匠算天誠信息科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958;G06F16/35;G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 213000 江蘇省常*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通過 ip 巡檢 網(wǎng)站 判斷 類別 方法 系統(tǒng) 設(shè)備 介質(zhì) | ||
本發(fā)明涉及一種通過IP巡檢網(wǎng)站、并判斷網(wǎng)站類別的方法、系統(tǒng)、設(shè)備及介質(zhì),方法包括:抓取目標(biāo)網(wǎng)站的網(wǎng)頁內(nèi)容;提取網(wǎng)頁中的有效文字和圖片;對提取的有效文字和圖片進行分類標(biāo)注;針對文字和圖片數(shù)據(jù)構(gòu)建并訓(xùn)練網(wǎng)絡(luò)模型;將網(wǎng)站中的網(wǎng)頁爬出來的圖片、文字分別作為各自對應(yīng)模型的輸入,得到網(wǎng)頁中圖片、文字的分類預(yù)測結(jié)果,設(shè)定圖像分類結(jié)果和文字分類結(jié)果的權(quán)重;統(tǒng)計網(wǎng)站下所有圖片和文字的預(yù)測結(jié)果,產(chǎn)生圖片分類的分布、文字分類的分布;通過計算得分獲得最終的分類結(jié)果。本發(fā)明模擬現(xiàn)實中的網(wǎng)頁瀏覽人員,采用人工智能技術(shù),直接分析網(wǎng)站中的具體內(nèi)容,覆蓋視頻、圖片、文字等網(wǎng)站信息,綜合形成網(wǎng)站內(nèi)容判別結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機圖像處理領(lǐng)域,具體涉及一種通過IP巡檢網(wǎng)站、并判斷網(wǎng)站類別的方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù)
目前市面上解決網(wǎng)站分類的辦法主要有以下幾種:
1)基于網(wǎng)頁文本;
A.通過建立網(wǎng)站分類字典,分析待判定的網(wǎng)頁的有效詞語在往來判定網(wǎng)站的類型;
B.單純針對通過深度學(xué)習(xí)CNN等算法來解釋文字之間的相似度;
C.通過邏輯回歸、貝葉斯等機器學(xué)習(xí)的方法來對文本分類。
2)基于網(wǎng)站結(jié)構(gòu)特征來做分類。
3)基于網(wǎng)站日志數(shù)據(jù)來做分類。
但這些方法只提取了網(wǎng)站的部分特征,比如網(wǎng)站的文字信息特征、html結(jié)構(gòu)特征等,且無法全面的從數(shù)學(xué)上表征網(wǎng)頁的內(nèi)容,從而導(dǎo)致分類準(zhǔn)確性低。導(dǎo)致機器分類后仍然需要很多手工糾正操作。
發(fā)明內(nèi)容
為了解決以上幾種分類方法分類準(zhǔn)確性低的問題,考慮到圖像和文字才是網(wǎng)站內(nèi)容分類最直接的體現(xiàn),本發(fā)明提出一種通過IP巡檢網(wǎng)站、并判斷網(wǎng)站類別的方法、系統(tǒng)、設(shè)備及介質(zhì),可以將分類的準(zhǔn)確率提升到85%以上。
實現(xiàn)本發(fā)明目的的技術(shù)方案為:一種通過IP巡檢網(wǎng)站、并判斷網(wǎng)站類別的方法,包括:
輸入IP列表,啟動爬蟲掃描,抓取目標(biāo)網(wǎng)站的網(wǎng)頁內(nèi)容;
判斷某個網(wǎng)站是否可訪問,將結(jié)果記錄到數(shù)據(jù)庫;
判斷網(wǎng)頁內(nèi)容里是否有備案號,并且備案號是否可查,將結(jié)果記錄到數(shù)據(jù)庫;
提取網(wǎng)頁中的有效文字和圖片;
對提取的有效文字和圖片進行分類標(biāo)注;
針對文字和圖片數(shù)據(jù)構(gòu)建并訓(xùn)練網(wǎng)絡(luò)模型,訓(xùn)練結(jié)束后將模型參數(shù)寫入模型庫;
將網(wǎng)站中的網(wǎng)頁爬出來的圖片、文字分別作為各自對應(yīng)模型的輸入,得到網(wǎng)頁中圖片、文字的分類預(yù)測結(jié)果,設(shè)定圖像分類結(jié)果和文字分類結(jié)果的權(quán)重;統(tǒng)計網(wǎng)站下所有圖片和文字的預(yù)測結(jié)果,產(chǎn)生圖片分類的分布、文字分類的分布;通過計算得分獲得最終的分類結(jié)果。
進一步的,通過python爬蟲框架scrapy結(jié)合javascript渲染服務(wù)splash抓取目標(biāo)網(wǎng)站的網(wǎng)頁內(nèi)容。
進一步的,對提取的有效文字和圖片進行分類標(biāo)注,具體為:以網(wǎng)頁為分組維度,圖片和文字聯(lián)合在一起標(biāo)注,標(biāo)注成預(yù)設(shè)的分類列表里的某個或某幾個類別。
進一步的,針對圖片數(shù)據(jù),使用VGGNET模型;針對文字?jǐn)?shù)據(jù),使用textCNN模型,激活函數(shù):ReLu,卷積核大小:14,15,16。
進一步的,圖片預(yù)測在輸入模型之前進行優(yōu)化處理,將輸入的圖片調(diào)整大小、填充成n張圖片組成一個批次,進行批量預(yù)測,然后取第二層的輸出作為結(jié)果的判定,產(chǎn)生 n個形狀為(C,J,K)的張量,取某分類值的pmap進行綜合評分判定;
最終pmap激活圖矩陣為
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇匠算天誠信息科技有限公司,未經(jīng)江蘇匠算天誠信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110222311.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種燃氣鍋爐富氧燃燒供氣方法及裝置
- 下一篇:時鐘頻率異常偏差檢測電路
- 互聯(lián)網(wǎng)協(xié)議電話系統(tǒng)及其方法
- 虛擬機的IP地址的劃分方法
- 使非IP設(shè)備接入虛擬IP網(wǎng)絡(luò)的方法和系統(tǒng)
- CC通道檢測方法
- 一種IP地址評估方法及裝置
- 一種調(diào)度軟交換IP話機故障檢測報警系統(tǒng)
- 一種網(wǎng)絡(luò)攻擊的IP地址分析方法、裝置和存儲介質(zhì)
- 靜態(tài)IP與動態(tài)IP的沖突檢測方法、系統(tǒng)、終端及存儲介質(zhì)
- IP地址段查找方法與業(yè)務(wù)調(diào)度方法、裝置、電子設(shè)備
- 一種IP檢測的方法、裝置、設(shè)備及存儲介質(zhì)
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





