[發明專利]一種面向海量歷史浮動車數據的分布式地圖匹配方法在審
| 申請號: | 201410281606.7 | 申請日: | 2014-06-20 |
| 公開(公告)號: | CN104182453A | 公開(公告)日: | 2014-12-03 |
| 發明(設計)人: | 薛益趙;李建元;錢濤;倪升華;李丹;陳濤;王浩 | 申請(專利權)人: | 銀江股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310012 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 海量 歷史 浮動 數據 分布式 地圖 匹配 方法 | ||
技術領域
本發明屬于海量數據處理計算領域和智能交通領域,具體涉及一種分布式地圖匹配方法。
背景技術
浮動車數據是最重要的交通數據之一,其輸出結果不僅能為相關部門提供道路實時交通狀況信息,而且可為道路建設規劃、擁堵緩解等各項工作提供定量數據分析基礎。地圖匹配技術是浮動車數據處理中最關鍵的一項內容之一,只有判斷出車輛在哪條道路上行駛,才能將GPS數據轉化為有效的道路交通狀態信息。
浮動車數據庫中往往存儲著海量的歷史數據。對這些海量歷史浮動車數據的地圖匹配是時空關聯性挖掘、缺失值插補、浮動車軌跡研究、交通限制條件挖掘等各種數據處理與分析任務的先決條件。在傳統的串行匹配技術下,普通計算海量浮動車數據進行地圖匹配會耗費大量的計算時間。以10000輛出租車每20秒返回一條浮動車數據為例,1年的浮動車紀錄約為114億條,以1秒鐘處理1000條數據為基準,總共的計算時間約為180天左右。計算時間之長令人難以忍受。因此設計分布式計算方法改變傳統計算模式,達到分而治之的效果顯得很有必要。
發明內容
為了克服已有現有技術中海量數據進行地圖匹配時計算速度慢、時間耗費量大的不足,本發明提供了一種基于Hadoop的分布式地圖匹配方法,實現原始數據快速清洗、計算速度較快、時間耗費量較小的面向海量歷史浮動車數據的分布式地圖匹配方法。
本發明解決其技術問題所采用的技術方案是:
一種面向海量歷史浮動車數據的分布式地圖匹配方法,所述匹配方法包括以下步驟:
步驟(1):將海量浮動車數據上傳至Hadoop分布式文件系統HDFS;
步驟(2):分布式數據清洗,首先對原始數據進行切片,以128M為單元切片成多個數據塊,然后將數據塊分發到各個節點的Map-Reduce上進行數據預處理,依據各個數據項的判別規則,實現分布式運算,當且僅當滿足所有數據項判別規則時該數據行才會被保留,否則刪除存在數據缺失或數據明顯偏離正常值的數據行,最后將清洗后的數據重新存回Hadoop分布式文件系統HDFS上;
步驟(3):將道路節點信息通過分布式緩存方法存儲到各個Slave子節點上時,在任何Job在節點上執行之前,先對道路節點信息建立網格索引;
步驟(4):通過Hadoop的Map-Reduce框架從分布式文件系統HDFS中讀取清洗后的浮動車數據,同樣對其進行切片處理,以128M為單元切片成多個數據塊,然后將數據塊分發到各個節點的Map-Reduce上,同時讀取分布式緩存中的道路節點信息進行地圖匹配運算,實現分布式運算;
將逐行讀取文件塊并將行號及該行內容映射為初始鍵值輸入,采用Map函數對鍵值部分進行分離處理,形成中間鍵值對<key,value>;
地圖匹配算法的Map函數的形參key1設置為經過清洗后數據文件的行號索引,value1設置為該行號索引所對應的數據行;
每條value1的值讀入內存并以“,”將數據行分割成多個數據項,從各數據項中提取出經度數據項,緯度數據項,行駛方向數據項進行匹配計算;
在地圖匹配計算中引入匹配度函數(λ):匹配度是描述浮動車GPS點與一條道路的匹配度,使用(0,1)區間的浮點數進行量化,匹配度越接近1,代表該浮動車越有可能位于這條道路;
其中λ為道路的匹配度;
為到道路投影距離的歸一化值;
為車輛行駛方向與道路方向夾角的歸一化值;
μ1,μ2為匹配權重,且滿足
μ1+μ2=1????????(1-4)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于銀江股份有限公司;,未經銀江股份有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410281606.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于將內容呈現給用戶的系統和方法
- 下一篇:數據編輯裝置





