[發明專利]一種房屋信息采集服務系統有效
| 申請號: | 201410545328.1 | 申請日: | 2014-10-15 |
| 公開(公告)號: | CN104317857B | 公開(公告)日: | 2019-03-22 |
| 發明(設計)人: | 賈巖 | 申請(專利權)人: | 深圳市易圖資訊股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 房屋信息 采集 服務 系統 | ||
本發明公開了一種房屋信息采集服務系統,包括:網站爬蟲組件,用于針對一個網站的抓取工作,針對網站的頁面元素與特點進行專門的解析,完成數據抽取后,映射到對應的數據實體當中,再交給網站爬蟲服務模塊進行數據的保存;監控服務模塊,用于監控網站爬蟲服務模塊的工作情況,及各個網站爬蟲組件的工作情況,及時發現網站爬蟲組件是否工作正常,抓取的數據是否正確;管理服務模塊,用于整個網站爬蟲服務的管理與配置;部署服務模塊,用于升級了網站爬蟲組件后部署升級網站爬蟲組件;調度服務模塊,用于調度網站爬蟲服務里面的網站爬蟲組件如何工作、什么時候工作、什么時候停止。以解決對抓取目標的描述或定義、對網頁或數據的分析與過濾、對URL的搜索策略的問題。
技術領域
本發明涉及數據網絡技術領域,尤其涉及一種房屋信息采集服務系統。
背景技術
網絡爬蟲是一個自動提取網頁的程序,為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL(Uniform Resoure Locator,統一資源定位器)開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。其中,聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
目前系統所需要的房產信息網絡爬蟲是一種聚焦爬蟲,它只關注有房產信息的頁面,相對于通用網絡爬蟲,聚焦爬蟲還需要解決三個主要問題:1、對抓取目標的描述或定義;2、對網頁或數據的分析與過濾;3、對URL的搜索策略。
發明內容
為了解決背景技術中存在的技術問題,本發明提出了一種房屋信息采集服務系統,以解決對抓取目標的描述或定義、對網頁或數據的分析與過濾、對URL的搜索策略的問題。
本發明提出的一種房屋信息采集服務系統,包括:
網站爬蟲組件,用于針對一個網站的抓取工作,針對網站的頁面元素與特點進行專門的解析,完成數據抽取后,映射到對應的數據實體當中,再交給網站爬蟲服務模塊進行數據的保存;
監控服務模塊,用于監控網站爬蟲服務模塊的工作情況,及各個網站爬蟲組件的工作情況,及時發現網站爬蟲組件是否工作正常,抓取的數據是否正確;
管理服務模塊,用于整個網站爬蟲服務的管理與配置;
部署服務模塊,用于升級了網站爬蟲組件后部署升級網站爬蟲組件;
調度服務模塊,用于調度網站爬蟲服務里面的網站爬蟲組件如何工作、什么時候工作、什么時候停止。
優選地,所述網站爬蟲組件,還用于在抓取的網站它的頁面元素與認證模式等發生變化時,進行相應的升級改造。
優選地,所述管理服務模塊用于對服務的啟動與停止,網站爬蟲組件的生命周期管理。
優選地,所述網站爬蟲組件基于多線程。
優選地,所述所述網站爬蟲組件具體工作流程包括:
向服務器發送自己設定好請求;
通過http將Web服務器上站點的網頁代碼提取出來;
根據一定的正則表達式提取出所需要的信息;
廣度優先搜索從網頁中某個鏈接出發,訪問該鏈接網頁上的所有鏈接,訪問完成后,再通過遞歸算法實現下一層的訪問。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市易圖資訊股份有限公司,未經深圳市易圖資訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410545328.1/2.html,轉載請聲明來源鉆瓜專利網。





