[發明專利]基于scrapy框架的房地產數據爬蟲方法及裝置在審
| 申請號: | 202110481318.6 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113515681A | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 劉曉林;龍巧玲;牛德雄;吳梓杰 | 申請(專利權)人: | 廣東科學技術職業學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 尹凡華 |
| 地址: | 519090 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 scrapy 框架 房地產 數據 爬蟲 方法 裝置 | ||
本發明公開了一種基于scrapy框架的房地產數據爬蟲方法,包括:特征提取步驟,對目標網頁的數據進行分析,提取所述目標網頁中房地產數據的位置特征及結構特征;代碼生成步驟,根據所述目標網頁構建相應的項目,根據所述位置特征及所述結構特征生成基于scrapy框架的爬蟲代碼;數據爬取步驟,在scrapy文件集的setting文件中設置信息頭將本地IP地址轉換成正常的訪問地址,根據所述爬蟲代碼,爬取所述房地產數據并按預設的規則保存。本發明通過對網頁數據分析提取特征,根據特征自動生成相應爬蟲代碼,爬取房地產數據并保存,可便捷提取大量繁多網頁中的房地產數據,節省用戶時間,提供給用戶便捷的查詢方式,便于用戶根據數據進行行業分析作出決策。
技術領域
本發明涉及網絡爬蟲技術領域,特別涉及一種基于scrapy框架的房地產數據爬蟲方法及裝置。
背景技術
隨著時代的進步,大多數房地產企業的營業模式已從線上經營改為線上經營,提供房地產相關數據的網頁也異常煩多。因此如何從網絡上獲取大量房地產相關數據,從而為用戶或商家提供更為簡便的查詢方式,成為一個重要的問題。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。為此,本發明提出一種基于scrapy框架的房地產數據爬蟲方法,能夠便捷地爬取房地產數據,節省用戶時間。
本發明還提出一種具有上述基于scrapy框架的房地產數據爬蟲方法的基于scrapy框架的房地產數據爬蟲裝置。
本發明還提出一種具有上述基于scrapy框架的房地產數據爬蟲方法的計算機存儲介質。
根據本發明的第一方面實施例的基于scrapy框架的房地產數據爬蟲方法,包括:特征提取步驟,對目標網頁的數據進行分析,提取所述目標網頁中房地產數據的位置特征及結構特征;代碼生成步驟,根據所述目標網頁構建相應的項目,根據所述位置特征及所述結構特征生成基于scrapy框架的爬蟲代碼;數據爬取步驟,在scrapy文件集的setting文件中設置信息頭將本地IP地址轉換成正常的訪問地址,根據所述爬蟲代碼,爬取所述房地產數據并按預設的規則保存到文件或數據庫中。
根據本發明實施例的基于scrapy框架的房地產數據爬蟲方法,至少具有如下有益效果:通過對網頁數據分析提取特征,根據特征自動生成相應爬蟲代碼,由爬蟲代碼爬取房地產數據并保存,可便捷提取大量繁多網頁中的房地產數據,節省用戶時間,提供給用戶便捷的查詢方式,便于用戶根據數據進行行業分析作出決策。
根據本發明的一些實施例,所述特征提取步驟還包括:對目標網頁的數據進行分析,提取所述目標網頁中房地產數據的分頁特征。提取分頁特征,防止爬取數據不完整。
根據本發明的一些實施例,所述代碼生成步驟還包括:根據所述分頁特征,得到下一分頁的相對鏈接,判斷所述相對鏈接是否為None,根據判斷結果提取下一分頁的所述房地產數據。根據相對鏈接生成分頁鏈接,提供獲取分頁數據的方法,獲取的房地產數據更完整精確。
根據本發明的一些實施例,所述代碼生成步驟還包括:根據所述分頁特征,得到分頁間的差異特征,根據所述差異特征生成分頁的鏈接,獲取分頁的所述房地產數據。根據差異特征生成分頁鏈接,提供獲取分頁數據的方法,獲取的房地產數據更完整精確。
根據本發明的一些實施例,所述數據爬取步驟還包括:在scrapy文件集的setting文件中設置爬蟲規則為無規則以及設置下載信息延遲DOWNLOAD_DELAY為1。設置爬蟲規則為無規則時,在數據內容不遵守爬蟲協議時仍可爬取;設置DOWNLOAD_DELAY為1,可確保數據無重復下載。
根據本發明的一些實施例,爬取的所述房地產數據內容包括:房源名、地址、戶型、朝向、樓層信息、單價、總價及信息來源。這些數據內容有利于用戶查詢,便于商家根據數據分析行情做出決策。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東科學技術職業學院,未經廣東科學技術職業學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110481318.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:SIM卡的切換方法及終端設備
- 下一篇:專利文本的輔助生成方法及電子終端





