[發(fā)明專利]基于網(wǎng)頁的樣本數(shù)據(jù)獲取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202210007622.1 | 申請日: | 2022-01-06 |
| 公開(公告)號: | CN114020987A | 公開(公告)日: | 2022-02-08 |
| 發(fā)明(設(shè)計(jì))人: | 童兆豐;樊興華;薛鋒 | 申請(專利權(quán))人: | 北京微步在線科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/957;G06F16/958 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 楊奇松 |
| 地址: | 100082 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 網(wǎng)頁 樣本 數(shù)據(jù) 獲取 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請?zhí)峁┮环N基于網(wǎng)頁的樣本數(shù)據(jù)獲取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),其中,基于網(wǎng)頁的樣本數(shù)據(jù)獲取方法包括:基于目標(biāo)網(wǎng)頁的URL訪問所述目標(biāo)網(wǎng)頁,并在所述目標(biāo)網(wǎng)頁訪問成功時(shí)獲取所述目標(biāo)網(wǎng)頁的網(wǎng)頁源碼;基于第一解碼格式識別所述網(wǎng)頁源碼的內(nèi)容;判斷所述網(wǎng)頁源碼的內(nèi)容是否為亂碼內(nèi)容;當(dāng)所述網(wǎng)頁源碼的內(nèi)容為亂碼內(nèi)容時(shí),則基于所述第二解碼格式對所述網(wǎng)頁源碼的內(nèi)容進(jìn)行識別,直至所述網(wǎng)頁源碼的內(nèi)容為正確;基于所述網(wǎng)頁源碼的內(nèi)容得到樣本數(shù)據(jù)。本申請能夠?qū)崿F(xiàn)在獲取網(wǎng)頁內(nèi)容而生成樣本數(shù)據(jù)的過程中,提高服務(wù)器資源利用率和提高生成樣本數(shù)據(jù)的執(zhí)行速度。
技術(shù)領(lǐng)域
本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種基于網(wǎng)頁的樣本數(shù)據(jù)獲取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,為了對網(wǎng)站進(jìn)行分類需要獲取針對網(wǎng)站分類的樣本數(shù)據(jù),而現(xiàn)有技術(shù)是利用調(diào)度器、下載器、爬蟲、實(shí)體管道、Scrapy引擎五大組件對web站點(diǎn)進(jìn)行抓取,并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù),最終得到樣本數(shù)據(jù),其中,現(xiàn)有技術(shù)的具體實(shí)現(xiàn)過程是:對一個(gè)站點(diǎn)配置啟動(dòng)地址,Scrapy運(yùn)行時(shí)首先會(huì)從啟動(dòng)地址抓取,并根據(jù)配置中的XPath或者正則獲取頁面中的目標(biāo)URL,然后在再次進(jìn)行訪問,如此循環(huán),通過下載器對訪問的URL地址結(jié)果進(jìn)行處理,提取內(nèi)容,并將處理好的內(nèi)容數(shù)據(jù)持久化存庫。
然而,由于Scrapy爬蟲框架的運(yùn)行是依據(jù)啟動(dòng)地址,并在本站點(diǎn)的頁面中進(jìn)行網(wǎng)絡(luò)式爬取,然后對爬取到的符合要求的URL再次進(jìn)行訪問,并對提取到的內(nèi)容做處理,最后進(jìn)行存庫,因此對已有URL地址并需要快速并發(fā)地提取到內(nèi)容的需求場景,該方案并不適合,并在爬蟲框架的頻繁啟動(dòng)造成CPU和內(nèi)存等資源的浪費(fèi),且在數(shù)據(jù)清洗方面,該爬蟲框架中并沒有提供對提取到的內(nèi)容做更深入處理的方法。
發(fā)明內(nèi)容
本申請實(shí)施例的目的在于提供一種基于網(wǎng)頁的樣本數(shù)據(jù)獲取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),用以至少實(shí)現(xiàn)在獲取網(wǎng)頁內(nèi)容而生成樣本數(shù)據(jù)的過程中,提高服務(wù)器資源利用率和提高生成樣本數(shù)據(jù)的執(zhí)行速度。
為此,本申請第一方面公開一種基于網(wǎng)頁的樣本數(shù)據(jù)獲取方法,所述方法包括:
基于目標(biāo)網(wǎng)頁的URL訪問所述目標(biāo)網(wǎng)頁,并在所述目標(biāo)網(wǎng)頁訪問成功時(shí)獲取所述目標(biāo)網(wǎng)頁的網(wǎng)頁源碼;
基于第一解碼格式識別所述網(wǎng)頁源碼的內(nèi)容;
判斷所述網(wǎng)頁源碼的內(nèi)容是否為亂碼內(nèi)容;
當(dāng)所述網(wǎng)頁源碼的內(nèi)容為亂碼內(nèi)容時(shí),則基于所述第二解碼格式對所述網(wǎng)頁源碼的內(nèi)容進(jìn)行識別,直至所述網(wǎng)頁源碼的內(nèi)容為正確;
基于所述網(wǎng)頁源碼的內(nèi)容得到樣本數(shù)據(jù)。
在本申請第一方面中,作為一種可選的實(shí)施方式,在所述基于第一解碼格式識別所述網(wǎng)頁源碼的內(nèi)容之前,所述方法還包括:
當(dāng)基于所述目標(biāo)網(wǎng)頁的URL訪問所述目標(biāo)網(wǎng)頁失敗時(shí),更換訪問所述目標(biāo)網(wǎng)頁的IP地址;
基于更換后的IP地址和目標(biāo)網(wǎng)頁的URL訪問所述目標(biāo)網(wǎng)頁。
在本申請第一方面中,作為一種可選的實(shí)施方式,所述基于所述網(wǎng)頁源碼的內(nèi)容得到樣本數(shù)據(jù),包括:
去除所述網(wǎng)頁源碼的內(nèi)容中的第一HMTL元素標(biāo)簽,并得到第一頁面處理結(jié)果;
基于所述第一頁面處理結(jié)果,提取第二HMTL元素標(biāo)簽的文字內(nèi)容;
將所述第二HMTL元素標(biāo)簽的文字內(nèi)容,作為所述樣本數(shù)據(jù)。
在本申請第一方面中,作為一種可選的實(shí)施方式,所述第一HMTL元素標(biāo)簽至少包括JS代碼片段標(biāo)簽、CSS樣式標(biāo)簽。
在本申請第一方面中,作為一種可選的實(shí)施方式,在所述基于所述第一頁面處理結(jié)果,提取第二HMTL元素標(biāo)簽的文字內(nèi)容之前,所述方法還包括:
將所述第一頁面處理結(jié)果中的網(wǎng)頁換行符轉(zhuǎn)換為普通文本換行符;
將所述第一頁面處理結(jié)果中的連續(xù)空白符和連續(xù)的換行符合并。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京微步在線科技有限公司,未經(jīng)北京微步在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210007622.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





