[發明專利]獲取房源數據方法、裝置、設備及可讀存儲介質在審
| 申請號: | 201810099832.1 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108197312A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 王嘉裕;韋柏松;徐蓓;侯斯靚;胡辰;高月;田磊;胡海亮;馬皓;李振增;田麗珍;張弼;鮑捷;陶茂 | 申請(專利權)人: | 平安好房(上海)電子商務有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采集 計算機可讀存儲介質 可讀存儲介質 數據采集器 測試指令 聚合規則 數據清洗 數據裝置 下載指令 全網 下載 聚合 清洗 測試 重復 保證 成功 | ||
本發明公開了一種獲取房源數據方法,所述方法包括以下步驟:啟動房源系統中添加的數據采集器,根據接收到的房源爬取條件,選取需要爬取的房源數據并進行采集;根據接收到的測試指令,測試采集到的房源數據是否為接收到的房源爬取條件所對應的房源數據;若采集到的房源數據為接收到的房源爬取條件所對應的房源數據,則根據接收到的下載指令下載所述房源數據,從而獲得房源數據;對爬取得到的房源數據進行數據清洗,并將清洗成功的房源數據按照聚合規則進行聚合。本發明還公開了一種獲取房源數據裝置、設備及計算機可讀存儲介質。本發明能夠獲得全網房源數據,從而保證房源質量和數量,并且可以避免重復的房源數據。
技術領域
本發明涉及數據聚合展示領域,尤其涉及一種獲取房源數據方法、裝置、設備及計算機可讀存儲介質。
背景技術
隨著互聯網的進步,人們在需要購買房子或者租賃房子時,越來越傾向于在網上進行查找房源,從而縮短查找房源的時間,提高查找房源的效率。
目前,市面上的房源分布于各渠道,無法查看全部的在架房源數據,并且沒有全面信息的平臺,房源數據滯后,垃圾數據較多。一個房源相冊中存在多套房源的照片,不可信,無順序,獲取到的房源數據可信度不高。
發明內容
本發明的主要目的在于提出一種獲取房源數據方法、裝置、設備及計算機可讀存儲介質,旨在解決獲取到的房源數據可信度不高的技術問題。
為實現上述目的,本發明提供一種獲取房源數據方法,所述方法包括:
啟動房源系統中添加的數據采集器,根據接收到的房源爬取條件,選取需要爬取的房源數據并進行采集;
根據接收到的測試指令,測試采集到的房源數據是否為接收到的房源爬取條件所對應的房源數據;
若采集到的房源數據為接收到的房源爬取條件所對應的房源數據,則根據接收到的下載指令下載所述房源數據,從而獲得房源數據;
對爬取得到的房源數據進行數據清洗,并將清洗成功的房源數據按照聚合規則進行聚合。
可選地,所述啟動房源系統中添加的數據采集器,根據接收到的房源爬取條件,選取需要爬取的房源數據并進行采集的步驟之前,還包括:
根據接收到的訪問指令進入獲取房源數據的網站,并根據接收到的模式選擇指令進入獲取房源數據的模式。
可選地,所述根據接收到的訪問指令進入獲取房源數據的網站,并根據接收到的模式選擇指令進入獲取房源數據的模式的步驟之后,還包括
將啟動房源系統中添加的數據采集器,及采集房源數據的信息發送至獲取房源數據的網站;
在獲得啟動房源系統中添加的數據采集器,及采集房源數據的權限之后,啟動房源系統中添加的數據采集器。
可選地,所述對爬取得到的房源數據進行數據清洗的步驟包括:
對爬取到的房源數據進行一致性檢查,識別超出標準值的房源數據;
將所述超出標準值的房源數據返回至獲取房源數據的網站進行驗證;
將驗證失敗的房源數據進行刪除。
可選地,所述將驗證失敗的房源數據進行刪除的步驟之后,還包括:
對刪除驗證失敗的房源數據之后的房源數據進行估算、整例刪除、變量刪除和成對刪除處理;
將處理失敗的房源數據進行刪除,獲得清洗之后的房源數據。
可選地,所述將清洗成功的房源數據按照聚合規則進行聚合的步驟包括:
提取清洗成功的待聚合房源數據,根據所述待聚合房源數據中的地址信息將待聚合房源數據進行分組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安好房(上海)電子商務有限公司,未經平安好房(上海)電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810099832.1/2.html,轉載請聲明來源鉆瓜專利網。





