[發(fā)明專利]基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法及裝置在審
| 申請?zhí)枺?/td> | 202110481318.6 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113515681A | 公開(公告)日: | 2021-10-19 |
| 發(fā)明(設(shè)計)人: | 劉曉林;龍巧玲;牛德雄;吳梓杰 | 申請(專利權(quán))人: | 廣東科學技術(shù)職業(yè)學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 廣州嘉權(quán)專利商標事務(wù)所有限公司 44205 | 代理人: | 尹凡華 |
| 地址: | 519090 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 scrapy 框架 房地產(chǎn) 數(shù)據(jù) 爬蟲 方法 裝置 | ||
1.一種基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法,其特征在于,包括:
特征提取步驟,對目標網(wǎng)頁的數(shù)據(jù)進行分析,提取所述目標網(wǎng)頁中房地產(chǎn)數(shù)據(jù)的位置特征及結(jié)構(gòu)特征;
代碼生成步驟,根據(jù)所述目標網(wǎng)頁構(gòu)建相應(yīng)的項目,根據(jù)所述位置特征及所述結(jié)構(gòu)特征生成基于scrapy框架的爬蟲代碼;
數(shù)據(jù)爬取步驟,在scrapy文件集的setting文件中設(shè)置信息頭將本地IP地址轉(zhuǎn)換成正常的訪問地址,根據(jù)所述爬蟲代碼,爬取所述房地產(chǎn)數(shù)據(jù)并按預(yù)設(shè)的規(guī)則保存到文件或數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法,其特征在于,所述特征提取步驟還包括:
對目標網(wǎng)頁的數(shù)據(jù)進行分析,提取所述目標網(wǎng)頁中房地產(chǎn)數(shù)據(jù)的分頁特征。
3.根據(jù)權(quán)利要求2所述的基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法,其特征在于,所述代碼生成步驟還包括:
根據(jù)所述分頁特征,得到下一分頁的相對鏈接,判斷所述相對鏈接是否為None,根據(jù)判斷結(jié)果提取下一分頁的所述房地產(chǎn)數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法,其特征在于,所述代碼生成步驟還包括:
根據(jù)所述分頁特征,得到分頁間的差異特征,根據(jù)所述差異特征生成分頁的鏈接,獲取分頁的所述房地產(chǎn)數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法,其特征在于,所述數(shù)據(jù)爬取步驟還包括:
在scrapy文件集的setting文件中設(shè)置爬蟲規(guī)則為無規(guī)則以及設(shè)置下載信息延遲DOWNLOAD_DELAY為1。
6.根據(jù)權(quán)利要求1所述的基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲方法,其特征在于,爬取的所述房地產(chǎn)數(shù)據(jù)內(nèi)容包括:房源名、地址、戶型、朝向、樓層信息、單價、總價及信息來源。
7.一種基于scrapy框架的房地產(chǎn)數(shù)據(jù)爬蟲裝置,使用權(quán)利要求1至6中任一項的方法,其特征在于,包括:
特征提取模塊,用于對目標網(wǎng)頁的數(shù)據(jù)進行分析,提取所述目標網(wǎng)頁中房地產(chǎn)數(shù)據(jù)的位置特征及結(jié)構(gòu)特征;
代碼生成模塊,用于根據(jù)所述目標網(wǎng)頁構(gòu)建相應(yīng)的項目,根據(jù)所述位置特征及所述結(jié)構(gòu)特征生成基于scrapy框架的爬蟲代碼;
數(shù)據(jù)爬取模塊,用于在scrapy文件集的setting文件中設(shè)置信息頭將本地IP地址轉(zhuǎn)換成正常的訪問地址,根據(jù)所述爬蟲代碼,爬取所述房地產(chǎn)數(shù)據(jù)并按預(yù)設(shè)的規(guī)則保存到文件或數(shù)據(jù)庫中。
8.一種計算機存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東科學技術(shù)職業(yè)學院,未經(jīng)廣東科學技術(shù)職業(yè)學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110481318.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)
- 一種解決Web證書認證的爬蟲方法
- 一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置
- 一種基于Scrapy的數(shù)據(jù)采集方法
- 基于Scrapy的數(shù)據(jù)爬取方法、終端設(shè)備及計算機可讀存儲介質(zhì)
- 一種海外服務(wù)器非結(jié)構(gòu)數(shù)據(jù)采集系統(tǒng)及方法
- 基于Scrapy的網(wǎng)站URL爬取方法
- 一種基于Scrapy-Redis的分布式網(wǎng)絡(luò)爬蟲優(yōu)化方法
- 分布式爬蟲的集中管理系統(tǒng)
- 一種基于消息中間件的數(shù)據(jù)采集系統(tǒng)、方法及裝置
- 房地產(chǎn)拍賣仲裁服務(wù)器和方法及存儲其程序源代碼的介質(zhì)
- 房地產(chǎn)企業(yè)項目管理方法及管理信息系統(tǒng)
- 一種基于地理特征的房地產(chǎn)推薦方法
- 房地產(chǎn)價格評估方法和房地產(chǎn)價格評估系統(tǒng)
- 房地分離和分層價值體系的房地產(chǎn)價值確定方法及系統(tǒng)
- 一種房地產(chǎn)估值方法、裝置、終端以及可讀存儲介質(zhì)
- 房地產(chǎn)營銷多家代理環(huán)境下業(yè)者合作系統(tǒng)
- 一種房地產(chǎn)智能管理系統(tǒng)
- 房地產(chǎn)動態(tài)估值方法及裝置
- 房地產(chǎn)類貸款業(yè)務(wù)風險評估方法及裝置





