[發明專利]一種基于MongoDB和Redis的網頁數據采集處理方法及系統有效
| 申請號: | 201710056576.3 | 申請日: | 2017-01-25 |
| 公開(公告)號: | CN106874424B | 公開(公告)日: | 2019-10-15 |
| 發明(設計)人: | 黃琦;王偉瓊;蔡國雄 | 申請(專利權)人: | 杭州淘淘搜科技有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/951;G06F9/54 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜;邱啟旺 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mongodb redis 網頁 數據 采集 處理 方法 系統 | ||
本發明公開了一種基于MongoDB和Redis的網頁數據采集處理方法及系統,該方法首先設定網頁下載請求的格式;然后為下載請求分配全局唯一ID;依照配置中心預置的對應業務負載均衡策略,完成對請求的轉發;采用MongoDB的副本集架構將請求按業務類型分庫分表。將請求寫入MongoDB數據庫,并用id字段覆蓋MongoDB默認的_id索引,對ts字段建立TTL索引,同時將id、biz、ts三個字段轉json格式后,利用lpush操作壓入Redis消息隊列;最后各下載服務器一直保持監聽Redis消息隊列,輪詢提取請求并下載解析網頁,獲取目標數據記錄入庫。本發明結合Redis內存消息隊列和Mongodb副本集架構實施的分布式網頁下載請求存儲方案,構建成本低、簡單實用。
技術領域
本發明涉及數據采集技術領域,特別涉及一種基于MongoDB和Redis的網頁數據采集處理方法及系統。
背景技術
當前處于一個信息爆發增長的數據時代,專業化的數據分析和深度挖掘,不斷孕育出巨大商機。越來越多企業由傳統模式的依靠直覺和經驗判斷,轉向依靠大數據分析和預測來制定企業戰略決策,各企業對數據的獲取需求愈加強烈。特別地,對于那些并不直接生產大數據的互聯網中小企業而言,通過網絡爬蟲技術實施有針對性、行業性、精準性的數據采集,間接建立企業的“大數據戰略”體系,就顯得尤為重要。不僅能大大降低企業大數據信息建設的成本,更能滿足企業業務發展要求,充分利用網絡數據價值,達到利益更大化。
發明內容
本發明的目的在于針對現有技術的不足,提供一種基于MongoDB和Redis的網頁數據采集處理方法及系統,便于企業低成本、高效率建立滿足自身業務發展需求的數據倉庫。
本發明的目的是通過以下技術方案來實現的:一種基于MongoDB和Redis的網頁數據采集處理方法,該方法包括以下步驟:
(1)設定網頁下載請求的格式:請求唯一標識符id、業務類型biz、時間戳ts、請求實體內容data、消息處理狀態flag;
(2)為下載請求分配全局唯一ID,對應下載請求的id字段;
(3)基于分布式協同服務,在配置中心預置各業務的網頁請求解析規則映射表、持久化節點列表、MongoDB數據庫名、集合名、集合水平拆分數、Redis消息隊列名。
(4)依照配置中心預置的對應業務負載均衡策略,完成對請求的轉發:首先根據下載請求的業務類型biz,從配置中心獲取該biz預先定義的持久化節點列表、MongoDB數據庫名、集合名、集合水平拆分數、Redis消息隊列名,再結合對唯一標識符id求模取余策略,將請求持久化到MongoDB相應的數據庫和集合,同時在Redis消息隊列記錄此條請求;
(5)采用MongoDB的副本集架構將請求按業務類型分庫分表。將請求寫入MongoDB數據庫,并用id字段覆蓋MongoDB默認的_id索引,對ts字段建立TTL索引,同時將id、biz、ts三個字段轉json格式后,利用lpush操作壓入Redis消息隊列;
(6)各下載服務器一直保持監聽Redis消息隊列,輪詢提取請求并下載解析網頁,獲取目標數據記錄入庫。
進一步地,所述步驟6具體為:首先利用rpop或其阻塞版操作brpop從隊列彈出請求,再結合id、biz和ts這三個字段組合成查詢過濾條件,然后調用MongoDB的原子操作findAndModify查詢對應的MongoDB持久化節點的數據庫和集合,即可得到完整的請求內容,根據該請求附帶的解析規則映射表,解析頁面獲取目標數據記錄入庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州淘淘搜科技有限公司,未經杭州淘淘搜科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710056576.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:搜索控制方法和系統
- 下一篇:基于Storm的實時關鍵詞近似搜索算法





