[發明專利]面向廣告投放的主從分布內容爬取機器人在審
| 申請號: | 202110971084.3 | 申請日: | 2021-08-23 |
| 公開(公告)號: | CN113656673A | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 劉文平 | 申請(專利權)人: | 劉文平 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06K9/62;G06Q30/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 312400 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 廣告 投放 主從 分布 內容 機器人 | ||
本發明根據面向廣告投放實際抓取要求設計并實現了基于Redis的分布式內容爬取機器人,通過分布式網絡部署方式進行抓取與存儲,一是根據廣告投放訓練集與測試集分類采集的要求,提出多線程分布式網絡內容爬取機器人,設計基于標簽的多站點分類采集規則,基于多任務并發調度策略實現任務速率可控、均衡分配的調度核心、多線程池化并發抓取,實現自動化Web規則配置與系統狀態監測;二是提出分布式內容爬取機器人部署方案,并進行集成測試與抓取結果評估。本發明設計的分布式架構可以大幅提高內容爬取機器人的效率,并對特定數據進行有效存儲,能夠滿足廣告投放的實際需求,具有重要的現實意義和巨大的運用價值。
技術領域
本發明涉及一種主從分布內容爬取機器人,特別涉及一種面向廣告投放的主從分布內容爬取機器人,屬于內容爬取機器人技術領域。
背景技術
隨著網絡技術的跨越式發展,特別是移動互聯網的到來極大豐富了網絡數據與信息量,互聯網的營銷意義與廣告價值日益顯著。與通過傳統媒體的投放方式相比,互聯網廣告具有獨特的優勢,首先其展示素材豐富,可以將聲音圖片文字等多維元素有機融合在一起,并且其價格遠低于同等效果的傳統媒體廣告。其次,網絡廣告天生具有強交互性,在拉近廣告主與用戶間距離的同時還可以方便的統計出廣告投放效果,另外廣告內容針對性強,傳播范圍廣且不受時空限制,具有獨特的優勢。
互聯網廣告的演化大致經歷了三個階段,目前以用戶行為為主導的廣告投放變得越來越重要,投放系統已經能夠收集用戶行為信息,通過特征分析等手段向用戶推薦其最感興趣的廣告。但無論廣告投放模式如何發展,都離不開一個高效的網絡內容爬取系統對海量數據的收集索引更新等這些基礎性工作,網絡內容爬取作為搜索引擎的核心組件,自然也是廣告投放系統中必不可少的組成部分,網絡內容爬取系統的效率將直接關系到整個投放系統的性能。目前Google等大型機構已研發出一些網絡內容爬取系統架構,但這些解決方案僅為用戶提供了簡單的不可定制的搜索接口。
現有技術開源世界中有大量的網絡內容爬取項目存在,但很大一部分是集中式網絡內容爬取系統,面對現如今爆炸性的海量數據采集,其信息采集效率與采集規模難以滿足實際應用需要,另外集中式內容爬取系統的運行模式,容易受到內存、處理器等硬件與帶寬方面的資源限制,一旦出現故障,整個系統將陷入癱瘓。而分布式網絡內容爬取采用多機帶來的硬件資源與網絡資源相對集中式內容爬取系統有顯著的速度與規模優勢,可以輕松解決系統資源帶來的瓶頸問題。但開源內容爬取程序多是通用性內容爬取系統,可定制性差,無法滿足廣告投放的實際需求,因此對面向廣告投放的分布式內容爬取系統的研發具有重要的現實意義和巨大的運用價值。
Google-bot是谷歌公司提供搜索服務的基礎性爬蟲,采用之前抓取過的數據與網站主提交的站點地圖來產生種子URL列表,從種子開始提取網頁中鏈接到抓取隊列,更新舊鏈接,去除死鏈接,加入新鏈接到Google索引器。但Google-bot也面臨著巨大的挑戰,同時抓取數千個網頁,要與已存儲的網頁區分開的同時還要持續檢測網頁更新來自動判別更新間隔。更新策略對一個優秀的內容爬取機器人系統來說至關重要,重復抓取沒有變化的網頁將嚴重影響內容爬取機器人效率。
綜上所述,現有技術的面向廣告投放的內容爬取系統存在不足,本發明的難點和待解決的問題主要集中在以下方面:
第一,現有技術的網絡內容爬取系統多是通用性內容爬取系統,針對廣告投放的可定制性差,無法結合互聯網廣告投放系統針對性的處理網頁信息,無法結合廣告投放需求索引和管理網頁信息,不具有廣告內容爬取系統的速度與規模優勢,無法滿足廣告投放的實際需求,同時僅為用戶提供了簡單的不可定制的搜索接口,缺乏可擴展性,無法面向廣告投放使用;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉文平,未經劉文平許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110971084.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動軌跡的顯示方法、裝置、存儲介質及電子裝置
- 下一篇:智能光療椅及系統





