[發(fā)明專利]一種爬蟲圖片處理方法、裝置、計算機設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110528247.0 | 申請日: | 2021-05-14 |
| 公開(公告)號: | CN113450361B | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計)人: | 寧林林 | 申請(專利權(quán))人: | 山東英信計算機技術(shù)有限公司 |
| 主分類號: | G06T7/10 | 分類號: | G06T7/10;G06T7/62;G06T9/00;G06F16/951 |
| 代理公司: | 北京連和連知識產(chǎn)權(quán)代理有限公司 11278 | 代理人: | 楊帆;宋薇薇 |
| 地址: | 250101 山東省濟南市高新區(qū)*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 爬蟲 圖片 處理 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種爬蟲圖片處理方法、裝置、計算機設(shè)備及存儲介質(zhì)。所述方法包括:利用網(wǎng)絡(luò)爬蟲爬取互聯(lián)網(wǎng)網(wǎng)頁上的圖片并加載至內(nèi)存以得到原始圖片;基于原始圖片的所占字節(jié)量和尺寸大小、預(yù)設(shè)字節(jié)量、預(yù)設(shè)尺寸對原始圖片進行壓縮調(diào)整以生成壓縮圖片并存儲至到發(fā)布目錄;將壓縮圖片加載至內(nèi)存并進行縮略裁剪操作以生成縮略圖并對應(yīng)地存儲至到發(fā)布目錄。本發(fā)明的方案實現(xiàn)了自動對過大圖片進行壓縮,節(jié)省本地應(yīng)用空間,壓縮過程中對文件大小進行參數(shù)化配置,還能自動生成統(tǒng)一尺寸的縮略圖,經(jīng)過以上處理,爬蟲系統(tǒng)爬取到的圖片可直接用于本地應(yīng)用主頁發(fā)布展示,無需再進行人工修改,顯著地提升了對爬蟲圖片的處理效率。
技術(shù)領(lǐng)域
本發(fā)明涉及爬蟲圖片處理技術(shù)領(lǐng)域,尤其涉及一種爬蟲圖片處理方法、裝置、計算機設(shè)備及存儲介質(zhì)。
背景技術(shù)
內(nèi)容聚合類互聯(lián)網(wǎng)應(yīng)用經(jīng)常受制于應(yīng)用規(guī)模、網(wǎng)絡(luò)資源、空間成本,在應(yīng)用本身原創(chuàng)內(nèi)容量有限的前提下,對同行業(yè)內(nèi)容進行轉(zhuǎn)載發(fā)布。除了人工轉(zhuǎn)載以外,爬蟲系統(tǒng)是最常用的內(nèi)容轉(zhuǎn)載工具,利用爬蟲系統(tǒng)高效轉(zhuǎn)載互聯(lián)網(wǎng)上同行業(yè)應(yīng)用發(fā)布的文本、多媒體等信息,可以有效提高本地應(yīng)用的內(nèi)容豐富度,從而吸引更多用戶的使用。爬蟲系統(tǒng)會爬取互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)據(jù),并將數(shù)據(jù)進行存儲后進一步使用。這些網(wǎng)頁中包含文本、圖片、音頻、視頻等不同類型的數(shù)據(jù),由于不同類型的數(shù)據(jù)在網(wǎng)頁中的加載方式不同,爬蟲系統(tǒng)會將各種類型的數(shù)據(jù)爬取后分別進行存儲。
目前,傳統(tǒng)爬蟲系統(tǒng)將網(wǎng)頁數(shù)據(jù)下載至本地后,將數(shù)據(jù)信息直接在本地應(yīng)用進行發(fā)布展示,但由于從多個目標網(wǎng)站爬取到的圖片尺寸不一,大小不一,而且目標網(wǎng)站頁面中的圖片數(shù)量可多可少,不受控制(某些頁面可能包含成百上千張圖片),本地應(yīng)用系統(tǒng)主頁若直接進行發(fā)布展示會存在以下問題:(1)若圖片使用原尺寸展示,可能由于圖片尺寸過大占用大幅的頁面空間,影響觀感。(2)若對圖片進行尺寸約束,則原圖片會被拉伸導(dǎo)致失真。(3)部分圖片文件過大會浪費硬盤空間,例如一張高清圖占用幾十兆(MB)的硬盤空間,在爬取的圖片數(shù)量過多時浪費尤其明顯。(4)沒有縮略圖,列表頁面無法預(yù)覽新聞配圖。此外,對于拉伸失真、浪費空間問題,傳統(tǒng)爬蟲系統(tǒng)在爬取圖片后,經(jīng)過人工處理后可解決,但需美工人員先將圖片進行裁剪,網(wǎng)站編輯人員才能轉(zhuǎn)載發(fā)布,需要耗費較多的人力,并且處理效率較低,因此亟需改進。
發(fā)明內(nèi)容
有鑒于此,有必要針以上技術(shù)問題,提供一種爬蟲圖片處理方法、裝置、計算機設(shè)備及存儲介質(zhì)。
根據(jù)本發(fā)明的第一發(fā)面,提供了一種爬蟲圖片處理方法,所述方法包括:
利用網(wǎng)絡(luò)爬蟲爬取互聯(lián)網(wǎng)網(wǎng)頁上的圖片并加載至內(nèi)存以得到原始圖片;
基于原始圖片的所占字節(jié)量和尺寸大小、預(yù)設(shè)字節(jié)量、預(yù)設(shè)尺寸對原始圖片進行壓縮調(diào)整以生成壓縮圖片并存儲至到發(fā)布目錄;
將壓縮圖片加載至內(nèi)存并進行縮略裁剪操作以生成縮略圖并對應(yīng)地存儲至到發(fā)布目錄。
在其中一個實施例中,所述基于原始圖片的所占字節(jié)量和尺寸大小、預(yù)設(shè)字節(jié)量、預(yù)設(shè)尺寸對原始圖片進行壓縮調(diào)整以生成壓縮圖片并存儲至到發(fā)布目錄的步驟包括:
基于原始圖片的所占字節(jié)量和預(yù)設(shè)字節(jié)量對所述原始圖片進行像素調(diào)整以生成第一壓縮圖片;
基于第一壓縮圖片的尺寸和預(yù)設(shè)尺寸對所述第一壓縮圖片進行尺寸調(diào)整以生成第二壓縮圖片并存儲到發(fā)布目錄。
在其中一個實施例中,所述基于原始圖片的所占字節(jié)量和預(yù)設(shè)字節(jié)量對所述原始圖片進行像素調(diào)整以生成第一壓縮圖片的步驟包括:
計算原始圖片文件容量大小以得到所占字節(jié)量;
將原始圖片所占字節(jié)量與預(yù)設(shè)字節(jié)量進行比較;
響應(yīng)于原始圖片的所占字節(jié)量超過所述預(yù)設(shè)字節(jié)量,則將所述原始圖片的像素調(diào)整為預(yù)設(shè)值以生成所述第一壓縮圖片。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東英信計算機技術(shù)有限公司,未經(jīng)山東英信計算機技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110528247.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





