[發明專利]一種基于Hadoop的套牌車識別方法有效
| 申請號: | 201410100491.7 | 申請日: | 2014-03-18 |
| 公開(公告)號: | CN104035954B | 公開(公告)日: | 2017-05-24 |
| 發明(設計)人: | 俞東進;平利強;李萬清;鄒紹芳;竇文生;方煒 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G08G1/017 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙)33240 | 代理人: | 杜軍 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 套牌車 識別 方法 | ||
技術領域
本發明屬于海量時空數據挖據技術領域,具體涉及到一種基于Hadoop的套牌車識別方法。
背景技術
套牌車指套用其它車輛的車牌號碼來逃避責罰的車輛。由于套牌車可以逃避所造成的嚴重后果和上繳的費用,對人民生命財產和公共安全造成了極大的威脅,所以一直是交通監管部門重點打擊的對象,并被國家嚴令禁止。因此,在海量交通流過車數據中主動發現和識別套牌車,不僅對公安交警主動預警和事后偵查具有重要意義,更是對真正車主和套牌車肇事受害者利益的保護。
然而,隨著交通信息流的快速增長,其數據量已達到TB級甚至PB級的規模。傳統計算機系統已不能滿足需求。此外,交通信息流具有高維、時空相關性等特征,使得數據分析處理更加復雜。傳統方法在處理海量交通流數據時受到計算能力、存儲能力等因素的影響,表現出存儲空間不夠、穩定性差、耗時長等諸多缺點,不能有效地識別套牌車。
發明內容
本發明針對現有技術的不足,提供了一種基于Hadoop的套牌車識別方法。
本發明一種基于Hadoop的套牌車識別方法,具體包括以下步驟:
步驟1:在關系型數據庫的海量過車記錄表中,每一條交通流過車記錄由序列號、車牌號碼、過車時間、地點編號、方向編號屬性組成,刪除車牌號碼為空的無效記錄;削減掉序列號和方向編號兩個與套牌車識別方法無關數據維度,將保留車牌號碼、過車時間和地點編號三個維度的過車記錄遷移到Hadoop集群的分布式數據庫HBase中;
步驟2:使用分布式數據倉庫Hive從分布式數據庫HBase中獲取同一車牌號碼出現在任意兩個監控點的過車記錄;獲取的每一對監控點的過車記錄按照車牌號碼和過車時間分組排序,即首先按照車牌號碼從小到大排序,然后在相同車牌號碼的記錄中按過車時間從先到后排序;
步驟3:初始化由m個監控點為頂點集及兩兩之間距離為邊權值的帶權圖G,計算出帶權圖G中所有監控點兩兩之間的最短路徑;將所有監控點的兩兩組合種分成n份,當n>1且整除時,每份包含種組合,不能整除時,前面n-1份包含種組合,最后一份包含種組合;
將每對監控點di和dj(i≠j)及最短路徑值Dist(di,dj)保存到Map<key,value>中,以mapi(i=1,2,3,...,n)表示每份中所有監控點對相對應的Map<key,value>的集合,其中key為di@dj,value為Dist(di,dj)值;
步驟4:創建n個線程,每個線程根據步驟3得到的mapi,遍歷mapi中的key值,封裝一個Hive任務,根據套牌車規則并行識別key值中兩監控點內的套牌車,即如果某一號牌的車輛通過一對監控點的時間小于在最大極限速度下通過的時間,則將該號牌的過車記錄放入候選套牌車集;
假設車牌號碼為H的車輛通過監控點di和dj的時間差為TDHi,j,在最大極限速度下通過監控點di和dj最短路徑下的時間為即當滿足規則則將該車牌號碼H的過車記錄放入候選套牌車集中;
步驟5:n個線程并發運行步驟4提交的Hive任務,每個線程負責提交步驟3中每份包含的監控點兩兩組合相對應的Hive任務進行分布式套牌車識別;在步驟4得到的候選套牌車集中,設置校正因子λ(0<λ≤1)用于校正最大極限速度,轉換為為通過校正因子λ校正后的值并應用于識別套牌車獲取最終的嫌疑套牌車集,當滿足規則則將該車牌號碼H的過車記錄放入嫌疑套牌車集中;
步驟6:各線程提交完成后,待集群中運行的所有Hive任務執行完畢,輸出最終的嫌疑套牌車集中的車牌號碼。
本發明提出的方法基于Hadoop集群,采用HBase分布式數據庫,Hive數據倉庫及Zookeeper分布式協調組件,構建了HBase+Hive集成環境,采用數據分割和Hive任務并行相結合的策略,通過算法優化有效減少套牌車識別匹配次數。在海量數據中識別套牌車,與傳統環境下及不經過優化的方法相比,采用本發明所述方法可使套牌車識別過程具有較高的運行效率和加速比,可以有效地識別套牌車。
附圖說明
圖1套牌車識別流程圖;
圖2云環境架構圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410100491.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:社交網絡群體識別方法和系統
- 下一篇:查詢數據的方法及裝置





