[發明專利]一種基于快遞數據預測城市房屋需求的方法有效
| 申請號: | 201810980223.7 | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN109214863B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 於志文;李青洋;郭斌;路新江 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06Q50/16;G06K9/62 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 金鳳 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 快遞 數據 預測 城市 房屋 需求 方法 | ||
1.一種基于快遞數據預測城市房屋需求的方法,其特征在于包括下述步驟:
步驟1:根據每一條快遞數據的發件地址和收件地址,按照小區分類,劃分出同屬于同一小區的用戶數據;
先通過在線地圖提供的接口獲取快遞數據中各個地址對應的經緯度,利用DBSCAN聚類算法將各個地址根據經緯度之間的距離進行聚類,聚出的所有類簇中除了小區類簇之外還包含有其他類簇,再根據類簇中地址包含的與小區相關的關鍵詞篩選出各個小區對應的類簇,得到篩選后包含小區類簇的數據;
步驟2:針對步驟1中篩選出的含有小區類簇的用戶數據,將用戶數據中“用戶電話”字段來唯一識別用戶,將小區中相同用戶的歷史快遞數據按照用戶電話信息聚合歸類,提取每個用戶的個人快遞行為特征,個人快遞行為特征包括:用戶的快遞頻次、用戶兩次快遞的平均時間間隔、用戶快遞的物品種類、用戶快遞的物品重量、用戶快遞交互雙方地址之間的物理距離,進而構建同一個小區內每個用戶快遞行為特征的矩陣矩陣的每一行代表一個用戶,每一列代表一種快遞行為特征;
步驟3:步驟2中得到的矩陣會有部分缺失,利用正則化奇異值分解方法將矩陣中的空缺值補全,補全方法的步驟如下:
步驟2.1:首先將同一行政區中的各個小區的快遞行為特征矩陣合并到同一個矩陣中,之后將矩陣進行分解,表示為公式(1):
其中,U表示用戶的數量,F表示快遞行為特征的數量,K表示所分解出的矩陣的階數,K取為40;此外,d表示各個行政區,t表示時間窗口,則表示在時間窗t的范圍內,位于行政區d中的所有小區的快遞行為特征矩陣,且該矩陣為U×F維,與表示分解得到的兩個矩陣,維度分別為U×K和K×F;
步驟2.2:由分解得到的矩陣與計算原矩陣中的空缺值,表示為公式(2):
其中,puk表示矩陣的第u行數據,qkf表示矩陣的第f列數據,bu為一個偏置量,表示小區本身的特征,由puk和qkf進行內積運算得到,表示矩陣的第u行第f列位置的值,分解得到的矩陣與通過梯度下降法學習得到,當公式(3)達到最小值時,即確定了與
其中最后三項為懲罰因子,參數λ取0.01,通過梯度下降法,不斷更新與當中的值,最終得到使得公式(3)達到最小值的矩陣,即最接近原矩陣的分解矩陣,并根據原矩陣當中的空缺值的位置將對應的與的行和列進行內積計算得到補全值;
步驟4:根據步驟3中補全的特征,計算每個用戶在快遞時間、快遞物品類型、快遞物品重量結合交互方距離三個方面離開小區的流動可能性,每個用戶的流動可能性,即離開小區的可能性,詳細步驟如下:
建立用戶快遞行為特征與用戶流動性之間的關系模型,分別定義快遞行為產生的時間,用戶快遞的物品類型,用戶快遞物品的重量和距離與用戶離開小區的可能性的關系,快遞行為的時間與用戶離開小區的可能性的關系表示為:
其中,表示在時間窗t中第m個小區的第n個用戶在快遞行為的時間方面估算出的離開該小區的可能性,ts和te表示時間窗的開始和結束時間,tf和tl表示在時間窗內第一次快遞行為以及最后一次快遞行為發生的時間,公式(4)表示在時間窗內,最近有過快遞行為的用戶在一段時間內離開該小區的可能性,時間窗口的大小根據用戶兩次快遞間隔的分布確定;
用戶快遞的物品類型與用戶離開小區的可能性的關系表示為:
其中,表示在時間窗t中第m個小區的第n個用戶在快遞物品類型的方面估算出的離開該小區的可能性,Int表示第n個用戶快遞的物品的類型,ωI表示該物品類型在反映用戶離開小區的可能性方面的權重,所述的物品類型使用電子商務平臺對于商品的17種分類;
針對用戶快遞物品的重量和距離與用戶離開小區的可能性的關系表示為公式(6)
其中,表示在時間窗t中第m個小區的第n個用戶在快遞物品重量和運送距離的方面估算出的離開小區的可能性,wnt表示快遞物品的重量,disnt表示快遞運送的距離;
每個用戶的流動可能性用向量表示為:則同一個小區當中所有用戶的流動可能性構建矩陣為:
對矩陣的每一列取平均運算得到第m個小區關于上述三個方面的小區整體人口流動可能性,用向量表示為:將城市中所有通過快遞地址數據聚類篩選出的m個小區整體人口流動性向量構建矩陣為:用于訓練小區房屋需求預測模型;
步驟5:獲取小區信息,包括小區房屋售價,小區建成年份,小區房屋銷售量、小區所在行政區以及小區周邊興趣點POI信息,小區POI的多樣性由公式(7)計算得到,由上述與小區相關的特征構建小區吸引力的特征矩陣其中CAt表示在時間窗t所有小區對用戶的吸引力,是表示第m個小區對用戶的吸引力的向量,由四個表示小區引力的特征組成,即小區所在行政區、小區的建造年份、小區房屋均價、POI種類的信息熵;
根據步驟1得到的小區名稱獲取各個小區的相關信息,包括每個月小區房屋售出數量和房源數量,每個月房屋平均價格,小區建成時間以及小區所處的行政區;根據步驟1得到的小區范圍中心點的經緯度,利用在線地圖的接口獲取小區周邊500米的圓形區域中的興趣點的數量和種類,根據相關信息提取能夠體現小區對于居民的吸引力的特征,構建表示各個小區吸引力特征的矩陣,主要考慮小區位于的行政區,小區建造的年份,小區房屋的均價以及小區周圍一定范圍內興趣點POI的數量和多樣性,小區所在的行政區、建造年份、房屋均價信息均從網絡在線房屋交易平臺得到,小區周圍POI的數量和類型從在線地圖提供的接口獲得,另外,對于小區周邊500米范圍內POI的多樣性的衡量,通過計算POI種類的信息熵,如公式(7)所示:
其中,pi表示小區周圍第i類POI的數量;
將影響各個小區自身對于用戶吸引力的因素構建矩陣:
CAt表示在時間窗t所有小區對用戶的吸引力,表示第m個小區對用戶的吸引力;
步驟6:將步驟4和步驟5中計算得到的小區常駐人口流動的可能性矩陣以及小區對用戶的吸引力的矩陣CAt合并,構建需求特征矩陣DFt,且根據房屋需求變化的時間窗口及需求特征建立線性回歸模型LR,以小區需求特征矩陣為輸入,以下一時間窗口的房屋需求相比該時間窗口的房屋需求變化為輸出,訓練線性回歸模型,并通過訓練得到的回歸模型,基于時間窗口的小區需求特征,預測下一時間窗口相較該時間窗口的房屋需求變化,進而通過訓練出的回歸模型,在已知某一時間段小區人口流動情況、小區對用戶的吸引力以及小區房屋需求變化的前提時,可預測下一時間段小區房屋需求相比上一時間段的變化;
模型計算公式如下所示:
HDt=DFt·W (8)
HDt表示城市中所有小區在時間窗口t的房屋需求相較時間窗口t-1的房屋需求變化,用向量表示為已知的房屋需求變化通過公式(9)計算得到:
其中,表示第m個小區在時間窗口t中房源的數量,表示第m個小區在時間窗口t中房屋的成交量,表示第m個小區在時間窗口t-1中房源的數量,表示第m個小區在時間窗口t-1中房屋的成交量,最后通過計算公式(10)求得DFt中各個特征對應的權重W:
得到W之后,再反過來輸入一個新的時間窗的DFt+1,根據公式(8)計算新時間窗口t+1相較于上一時間窗口t的房屋需求變化HDt+1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810980223.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種走失人員的搜尋方法及相關設備
- 下一篇:一種廣告識別方法及裝置、電子設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





