[發明專利]一種基于LDA模型的地鐵站點功能挖掘方法有效
| 申請號: | 201710817833.0 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107656987B | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 孔祥杰;夏鋒;付振寰;郭昊塵;王進忠 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06Q50/26;G06K9/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 模型 地鐵 站點 功能 挖掘 方法 | ||
1.一種基于LDA模型的地鐵站點功能挖掘方法,其特征在于,步驟如下:
(1)收集地鐵客流數據作為乘客出行模式矩陣,收集地鐵POI數據作為POI相對含量矩陣;
(2)以乘客出行模式矩陣和POI相對含量矩陣為輸入,應用LDA主題模型挖掘站點靜動語義;
(3)移動語義挖掘與位置語義挖掘
a)將所有站點的出行模式的頻率通過一個形為m*n的矩陣Msp來表示,其中m為站點的總數目,n為所有可能出現的出行模式的總數目;
b)將站點出行模式矩陣Msp作為LDA的輸入,得到一個m*k的站點功能矩陣,其中,k為潛在功能的數目,k設為20;
c)建立一個m*t的站點POI矩陣MSPOI,其中m為站點的數目,t為POI類別標簽數目;
d)對矩陣MSPOI的每一列進行min-max標準化,以將每個POI類別的數值映射到0至1之間,具體公式如下:
其中,min(MSPOI[,j])表示矩陣第j列的最小值,max(MSPOI[,j])表示第j列的最大值;i=1,2,3,…,m;j=1,2,3,…,t;
(4)聯合步驟(3)所得移動語義及位置語義,提取每個站點的功能特征向量,得到站點功能矩陣F
a)將移動語義與位置語義作為站點兩大特征,得到一個m×2k的矩陣MSF,其中m為站點的總數目,k為潛在功能的數目;
b)對MSF按列進行Z-Score標準化處理,計算方法如下:
其中μj為MSF第j列的期望,σj為MSF第j列的方差;
c)使用稀疏主成份分析方法SPCA提取每個站點的功能特征向量,得到站點功能矩陣F;
(5)使用優化的K均值算法對站點的功能特征向量進行聚類
a)使用輪廓系數s來評估聚類性能,輪廓系數s通過以下兩個指標來計算:
指標a:一個樣本點和同一聚類中所有其他樣本點的平均距離,反映了簇內凝聚度;
指標b:一個樣本點和離其最近的聚類中所有樣本點的平均距離,反映了簇間分離度;
對于一個樣本的輪廓系數計算公式為:
b)使用KMeans++的聚類中心選取方法來代替原始K均值算法隨機選取初始聚類中心的方式,步驟如下:
A.從樣本集中隨機選取一個點作為第一個聚類中心;
B.重復以下步驟,直至生成k個聚類中心:
①計算樣本集中每個樣本點xi和與之最近的已有聚類中心之間的距離di;
②選取一個新的聚類中心,選擇時每個點xi被選中的概率與di成正比;
c)以這k個點為初始聚類中心執行K均值算法;
對站點功能矩陣F聚類,得到M個聚類中心向量μi,每個簇都是具有某種相同功能站點的集合;
(6)從多個角度分析站點功能標識,確定站點功能
a)類間客流轉移:
分析類間不同時段的出入客流量特征以進行類型標注;在時間段t內由聚類ci中站點到達聚類cj中站點的平均客流量為這段時間內由聚類ci到達聚類cj的客流量總數除以兩個聚類包含站點數的積;
b)地理功能占比分布:
統計一個站點類別內平均每個站點所含有的POI數目占全市總數目的百分比,以分析出每個類別的功能;第i種POI標簽點在站點分類j的地理功能占比其中ni為所有i類POIs的數目,nj為j類站點的數目,ni,j為j類站點所在地區內所有i類POIs的數目;
c)簇間相似度:
根據已經獲得的M個聚類中心向量μi,計算簇間余弦相似度矩陣MS,MS是一個M×M的方陣,其中每個元素MS.mi,j的具體計算方法如下:
MS.mi,j=cos<μi,μj>
在進行站點功能標識時,簇間相似度越大的兩個簇承擔的功能就越相似。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710817833.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙膜凈水系統及凈水機
- 下一篇:文檔編輯方法及系統





