[發明專利]基于word2vec的相似站點獲取方法及系統在審
| 申請號: | 201810443349.0 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN110489530A | 公開(公告)日: | 2019-11-22 |
| 發明(設計)人: | 黃天印;趙時閔;徐文潔 | 申請(專利權)人: | 上海申通地鐵集團有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06K9/62 |
| 代理公司: | 31283 上海弼興律師事務所 | 代理人: | 胡美強;羅朗<國際申請>=<國際公布>= |
| 地址: | 200031*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 站點 出行 余弦相似度 目標站點 訓練語料 站點獲取 向量 公共交通 客流數據 模型訓練 數據構建 向量計算 地鐵站 相似度 預設 | ||
本發明公開了一種基于word2vec的相似站點獲取方法及系統,所述相似站點獲取方法包括:S1、獲取預設時間內所有用戶乘坐公共交通的出行數據;S2、提取每個用戶的出行數據,并根據每個用戶的出行數據構建每個用戶的站點訓練語料;S3、將所有用戶的站點訓練語料輸入至word2vec模型訓練得到每個站點的表示向量;S4、根據任意兩個站點的表示向量計算得到任意兩個站點的余弦相似度;S5、根據余弦相似度獲取與一目標站點最相似的若干站點。本發明基于站點客流數據,使用word2vec對用戶出行數據進行訓練,得到地鐵站點對應的表示向量,進一步找到與目標站點相似度較高的若干站點。
技術領域
本發明屬于大數據技術領域,尤其涉及一種基于word2vec的相似站點獲取方法及系統。
背景技術
具備不同功能屬性的城市區域是為滿足居民日常生活所需提供不同的功能服務,對城市區域功能的獲取可以為很多有價值的服務提供參考,例如城市規劃、商業選址、出行建議等。而現今,隨著智能交通技術的發展與應用,大量蘊含用戶具體出行信息的客流數據被采集得到,不僅僅局限于流量的統計,具體落實到個人的進站、出站、時間等信息與站點附近區域功能有密切的關系,如何合理有效的利用這些信息,為相似區域功能的站點的發現提供具有時間和空間雙重屬性的指導信息,對于完善交通系統、優化城市規劃有重要的指導意義。
發明內容
本發明要解決的技術問題是為了克服現有技術中缺乏合理有效的提供區域功能發現的方法的缺陷,提供一種基于word2vec(將單詞表征為實數值向量的自然語言處理模型)的相似站點獲取方法及系統。
本發明是通過下述技術方案來解決上述技術問題:
一種基于word2vec的相似站點獲取方法,所述相似站點獲取方法包括:
S1、獲取預設時間內所有用戶乘坐公共交通的出行數據,所述出行數據包括至少兩個站點;
S2、提取每個用戶的出行數據,并根據所述每個用戶的出行數據構建所述每個用戶的站點訓練語料;
S3、將所有用戶的站點訓練語料輸入至word2vec模型訓練得到每個站點的表示向量;
S4、根據任意兩個站點的表示向量計算得到所述任意兩個站點的余弦相似度;
S5、根據所述余弦相似度獲取與一目標站點最相似的若干站點。
較佳地,步驟S2具體包括:
S21、提取每個用戶的出行數據;
S22、按照時間順序將所述每個用戶出行經過的所有站點依次排列構建成所述站點訓練語料。
較佳地,步驟S1具體包括:
S11、獲取預設時間內所有用戶乘坐公共交通的交通卡刷卡數據;
S12、提取所述交通卡刷卡數據中包含進站數據和出站數據的數據生成所述出行數據。
較佳地,所述預設時間包括至少一個預設周期,步驟S12具體包括:
S121、檢測任意一個預設周期內任一用戶的所述交通卡刷卡數據中進站數據的數量和出站數據的數量是否相同,若否,則濾除所述任意一個預設周期內的所述任一用戶的交通卡刷卡數據;
S122、從濾除后的交通卡刷卡數據中提取包含進站數據和出站數據的數據生成所述出行數據。
一種基于word2vec的相似站點獲取系統,所述相似站點獲取系統包括數據獲取模塊、數據提取模塊、訓練語料構建模塊、表示向量訓練模塊、相似度計算模塊和相似站點獲取模塊;
所述數據獲取模塊用于獲取預設時間內所有用戶乘坐公共交通的出行數據,所述出行數據包括至少兩個站點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海申通地鐵集團有限公司,未經上海申通地鐵集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810443349.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于句法結構和重排序的對話生成方法
- 下一篇:高頻問題的確定方法和裝置





