[發明專利]一種通用的網頁類型判定方法在審
| 申請號: | 201810350028.6 | 申請日: | 2018-04-18 |
| 公開(公告)號: | CN108921184A | 公開(公告)日: | 2018-11-30 |
| 發明(設計)人: | 柳廳文;李彥增;亞靜;張水利;李全剛;時金橋 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/22;G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 網頁類型 判定 預處理 圖像數據集 網頁 塊結構 通用的 視覺 抓取 獲取目標 目標網頁 圖像輸入 圖像縮放 信息增強 規范化 可識別 統一 | ||
1.一種通用的網頁類型判定方法,其步驟包括:
對網頁先進行預處理,再抓取該網頁的圖像;
對圖像進行規范化處理,包括將圖像縮放至可識別其原有視覺塊結構的最小程度并統一寬高尺寸;
在不破壞圖像原有視覺塊結構的前提下對圖像進行信息增強,得到圖像數據集;
將上述圖像數據集輸入到一用于判定網頁類型的模型中,對該模型進行訓練;
通過上述預處理和規范化處理,獲取目標網頁的圖像,將該圖像輸入到上述經過訓練的模型中,判定該目標網頁的類型。
2.根據權利要求1所述的方法,其特征在于,采用渲染引擎headless Chrome、phantomJS抓取網頁圖像。
3.根據權利要求1所述的方法,其特征在于,所述預處理包括去除廣告、移除position標記為fixed的浮動對象、移除iframe,還可包括對文本域、圖像域進行不同的顏色覆蓋。
4.根據權利要求1所述的方法,其特征在于,統一寬高尺寸的方法包括以圖像的寬為基準,裁剪多余高度或圖像高度不足時統一填補白色,以統一寬高比例。
5.根據權利要求1所述的方法,其特征在于,對圖像進行信息增強包括增加噪點、圖像鏡像。
6.根據權利要求1所述的方法,其特征在于,所述模型采用深度學習框架,以多層神經網絡和深度殘差網絡ResNet為基線,以交叉熵為目標函數。
7.根據權利要求1所述的方法,其特征在于,所述深度學習框架包括TensorFlow、torch,所述神經網絡包括CNN。
8.根據權利要求1所述的方法,其特征在于,通過目標函數向正確趨勢逼近的方式訓練所述模型。
9.根據權利要求1所述的方法,其特征在于,訓練所述模型,當準確率高于85%時保存模型參數,以用于對目標網頁類型的判定。
10.根據權利要求1所述的方法,其特征在于,所述模型的輸入為圖像經過工具讀取形成的三通道或原通道矩陣,該工具包括openCV;所述模型的輸出為多分類概率,通過softmax函數輸出網頁類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810350028.6/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





