[發(fā)明專利]內(nèi)容抓取的方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品有效
| 申請?zhí)枺?/td> | 202110863076.7 | 申請日: | 2021-07-29 |
| 公開(公告)號(hào): | CN113553489B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 張繼武 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 內(nèi)容 抓取 方法 裝置 設(shè)備 介質(zhì) 程序 產(chǎn)品 | ||
本公開提供了一種內(nèi)容抓取的方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品,涉及互聯(lián)網(wǎng)技術(shù)。該方法的一實(shí)施方式包括:獲取多個(gè)抓取請求中每個(gè)抓取請求對應(yīng)的圖實(shí)例,其中,圖實(shí)例的頂點(diǎn)為執(zhí)行每個(gè)抓取請求的算子;從預(yù)設(shè)的配置文件中,獲取每個(gè)抓取請求中資源類型對應(yīng)的依賴關(guān)系;利用與每個(gè)抓取請求對應(yīng)的依賴關(guān)系,以及每個(gè)抓取請求中資源類型對應(yīng)的算子,對每個(gè)抓取請求中資源類型的內(nèi)容進(jìn)行抓取。
技術(shù)領(lǐng)域
本公開實(shí)施例涉及計(jì)算機(jī)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種內(nèi)容抓取的方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。
背景技術(shù)
抓取是搜索收錄互聯(lián)網(wǎng)內(nèi)容的第一步,每天收錄幾十億的各類互聯(lián)網(wǎng)資源。抓取系統(tǒng)是Spider的重要一環(huán),需要輕量和高效的獲取網(wǎng)頁、圖片、視頻資源。
目前,抓取系統(tǒng)采用的是原生套接字(Socket)的方式,只支持超文本傳輸協(xié)議(HyperText?Transfer?Protocol,HTTP),HTTPS需要通過Nginx代理,以實(shí)現(xiàn)對資源的抓取。
發(fā)明內(nèi)容
本公開實(shí)施例提出了一種內(nèi)容抓取的方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。
第一方面,本公開實(shí)施例提出了一種內(nèi)容抓取的方法,包括:獲取多個(gè)抓取請求中每個(gè)抓取請求對應(yīng)的圖實(shí)例,其中,圖實(shí)例的頂點(diǎn)為執(zhí)行每個(gè)抓取請求的算子;從預(yù)設(shè)的配置文件中,獲取每個(gè)抓取請求中資源類型對應(yīng)的依賴關(guān)系;利用與每個(gè)抓取請求對應(yīng)的依賴關(guān)系,以及每個(gè)抓取請求中資源類型對應(yīng)的算子,對每個(gè)抓取請求中資源類型的內(nèi)容進(jìn)行抓取。
第二方面,本公開實(shí)施例提出了一種內(nèi)容抓取的裝置,包括:數(shù)據(jù)獲取模塊,被配置成獲取多個(gè)抓取請求中每個(gè)抓取請求對應(yīng)的圖實(shí)例,其中,圖實(shí)例的頂點(diǎn)為執(zhí)行每個(gè)抓取請求的算子;關(guān)系獲取模塊,被配置成從預(yù)設(shè)的配置文件中,獲取每個(gè)抓取請求中資源類型對應(yīng)的依賴關(guān)系;內(nèi)容抓取模塊,被配置成利用與每個(gè)抓取請求對應(yīng)的依賴關(guān)系,以及每個(gè)抓取請求中資源類型對應(yīng)的算子,對每個(gè)抓取請求中資源類型的內(nèi)容進(jìn)行抓取。
第三方面,本公開實(shí)施例提出了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行如第一方面描述的方法。
第四方面,本公開實(shí)施例提出了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行如第一方面描述的方法。
第五方面,本公開實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面描述的方法。
第六方面,本公開實(shí)施例提出了一種內(nèi)容抓取系統(tǒng),包括終端設(shè)備和第三方面描述的電子設(shè)備。
本公開實(shí)施例提供的內(nèi)容抓取的方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品,首先獲取多個(gè)抓取請求中每個(gè)抓取請求對應(yīng)的圖實(shí)例,其中,圖實(shí)例的頂點(diǎn)為執(zhí)行每個(gè)抓取請求的算子;然后從預(yù)設(shè)的配置文件中,獲取每個(gè)抓取請求中資源類型對應(yīng)的依賴關(guān)系;最后利用與每個(gè)抓取請求對應(yīng)的依賴關(guān)系,以及每個(gè)抓取請求中資源類型對應(yīng)的算子,對每個(gè)抓取請求中資源類型的內(nèi)容進(jìn)行抓取??梢愿鶕?jù)資源類型更加靈活的編排處理流程,更加方便的適應(yīng)新協(xié)議的擴(kuò)展,在相同抓取成功率下,更加節(jié)省了資源。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本公開的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯。附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
圖1是本公開可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本公開的內(nèi)容抓取的方法的一個(gè)實(shí)施例的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110863076.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





