[發明專利]一種房屋信息采集服務系統有效

申請號：	201410545328.1	申請日：	2014-10-15
公開（公告）號：	CN104317857B	公開（公告）日：	2019-03-22
發明（設計）人：	賈巖	申請（專利權）人：	深圳市易圖資訊股份有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955
代理公司：	深圳市世紀恒程知識產權代理事務所 44287	代理人：	胡海國
地址：	518000 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種房屋信息采集服務系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種房屋信息采集服務系統，包括：網站爬蟲組件，用于針對一個網站的抓取工作，針對網站的頁面元素與特點進行專門的解析，完成數據抽取后，映射到對應的數據實體當中，再交給網站爬蟲服務模塊進行數據的保存；監控服務模塊，用于監控網站爬蟲服務模塊的工作情況，及各個網站爬蟲組件的工作情況，及時發現網站爬蟲組件是否工作正常，抓取的數據是否正確；管理服務模塊，用于整個網站爬蟲服務的管理與配置；部署服務模塊，用于升級了網站爬蟲組件后部署升級網站爬蟲組件；調度服務模塊，用于調度網站爬蟲服務里面的網站爬蟲組件如何工作、什么時候工作、什么時候停止。以解決對抓取目標的描述或定義、對網頁或數據的分析與過濾、對URL的搜索策略的問題。

技術領域

本發明涉及數據網絡技術領域，尤其涉及一種房屋信息采集服務系統。

背景技術

網絡爬蟲是一個自動提取網頁的程序，為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL(Uniform Resoure Locator，統一資源定位器)開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。其中，聚焦爬蟲的工作流程較為復雜，需要根據一定的網頁分析算法過濾與主題無關的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL，并重復上述過程，直到達到系統的某一條件時停止。另外，所有被爬蟲抓取的網頁將會被系統存貯，進行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。

目前系統所需要的房產信息網絡爬蟲是一種聚焦爬蟲，它只關注有房產信息的頁面，相對于通用網絡爬蟲，聚焦爬蟲還需要解決三個主要問題：1、對抓取目標的描述或定義；2、對網頁或數據的分析與過濾；3、對URL的搜索策略。

發明內容

為了解決背景技術中存在的技術問題，本發明提出了一種房屋信息采集服務系統，以解決對抓取目標的描述或定義、對網頁或數據的分析與過濾、對URL的搜索策略的問題。

本發明提出的一種房屋信息采集服務系統，包括：

網站爬蟲組件，用于針對一個網站的抓取工作，針對網站的頁面元素與特點進行專門的解析，完成數據抽取后，映射到對應的數據實體當中，再交給網站爬蟲服務模塊進行數據的保存；

監控服務模塊，用于監控網站爬蟲服務模塊的工作情況，及各個網站爬蟲組件的工作情況，及時發現網站爬蟲組件是否工作正常，抓取的數據是否正確；

管理服務模塊，用于整個網站爬蟲服務的管理與配置；

部署服務模塊，用于升級了網站爬蟲組件后部署升級網站爬蟲組件；

調度服務模塊，用于調度網站爬蟲服務里面的網站爬蟲組件如何工作、什么時候工作、什么時候停止。

優選地，所述網站爬蟲組件，還用于在抓取的網站它的頁面元素與認證模式等發生變化時，進行相應的升級改造。

優選地，所述管理服務模塊用于對服務的啟動與停止，網站爬蟲組件的生命周期管理。

優選地，所述網站爬蟲組件基于多線程。