[發(fā)明專利]適用于廣域網的分布式交通大數(shù)據并行聚類方法在審
| 申請?zhí)枺?/td> | 201811176056.7 | 申請日: | 2018-10-10 |
| 公開(公告)號: | CN109359679A | 公開(公告)日: | 2019-02-19 |
| 發(fā)明(設計)人: | 洪月華 | 申請(專利權)人: | 洪月華 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F9/50 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530007 廣西壯族自治區(qū)南*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大數(shù)據 廣域網 聚類運算 并行 聚類 聚類算法 周期增量 分布式計算 最小距離法 并行執(zhí)行 動態(tài)更新 聚類結果 數(shù)據移動 算法實現(xiàn) 特征群體 行為模式 運算效率 構建 拷貝 校正 新類 優(yōu)化 交通 挖掘 移動 重復 改進 | ||
本發(fā)明公開了適用于廣域網的分布式交通大數(shù)據并行聚類方法,分布式大數(shù)據的并行聚類運算按時序周期分為歷史全量階段和多個周期增量階段持續(xù)執(zhí)行,首先用最大最小距離法優(yōu)化k?means聚類算法;其次構建適用于廣域網的基于MapReduce的分布式并行聚類計算框架,在該框架里再次優(yōu)化改進的聚類算法實現(xiàn)了在廣域網內分布式的并行執(zhí)行,然后用該算法實現(xiàn)對歷史全量大數(shù)據的分布式并行聚類運算,從中挖掘出特征群體及其行為模式;最后定期用多個周期增量大數(shù)據的聚類運算不斷地校正歷史全量大數(shù)據的聚類結果,對已有類動態(tài)更新或生成新類;通過分布式計算避免大數(shù)據的廣域網內拷貝移動和重復聚類運算,降低了數(shù)據移動成本,提高運算效率。
技術領域
本發(fā)明屬于數(shù)據處理技術領域,特別涉及適用于廣域網的分布式交通大數(shù)據并行聚類方法。
背景技術
大數(shù)據分布式地存儲在廣域網環(huán)境里,對結構復雜、總量巨大(達到TB甚至PB級別)的數(shù)據進行移動集中后再進行傳統(tǒng)的基于局域網的并行化聚類運算,因時間、金錢和設備等成本無法直接適用。而利用抽樣降低數(shù)據規(guī)模,使用降維減少數(shù)據復雜度,都對聚類結果的準確性有影響。這就亟需我們改變本地局域網傳統(tǒng)的聚類挖掘方法,從而使得數(shù)據聚類的效率和準確率得到提高。
在實際應用方面,電動車群體行為模式的分布式交通大數(shù)據的聚類問題是亟待解決的問題。目前是交通事故高發(fā)時期,電動車已成為新的道路交通安全隱患,由于電動車違規(guī)引起的事故占相當比例,如果能發(fā)現(xiàn)電動車違規(guī)的群體行為模式并制定相應的應對方案,就能有效地控制電動車違規(guī)事件的發(fā)生,使得交通事故得到減少。
違規(guī)的電動車數(shù)據能從監(jiān)控錄像得到,同時對圖像處理后還能得到當時路面上一起等待過馬路的電動車數(shù)量、路口逆行、違反規(guī)定載物、超載、超速、走機動車道等信息,而該路段的車速及紅燈時長和路面寬度等信息是已知的。每個違規(guī)的電動車都必然有這些維度的信息,同時每個地方都有很多電動車違規(guī)的數(shù)據,但是若從整個國家的層面上挖掘電動車違規(guī)的群體行為模式卻必須面對大數(shù)據的廣域網內拷貝移動問題,十分有必要發(fā)明一個卓有成效的分布式交通大數(shù)據并行聚類方法。
發(fā)明內容
針對上述現(xiàn)有技術存在的問題,本發(fā)明提出一種適用于廣域網的分布式交通大數(shù)據并行聚類方法。
本發(fā)明處理的對象是分布式地存儲在廣域網的大數(shù)據,提出一個適用于廣域網的基于MapReduce的分布式并行聚類計算框架,同時在實際應用中基于該框架優(yōu)化改進聚類算法,使得聚類計算在廣域網內跨節(jié)點能分布式并行執(zhí)行與增量執(zhí)行,大數(shù)據的分布式并行聚類運算按時序周期分為歷史全量階段和多個周期增量階段持續(xù)執(zhí)行。實現(xiàn)對歷史全量大數(shù)據的分布式并行聚類運算,挖掘出群體行為模式后再用多個增量大數(shù)據的聚類運算不斷地修正聚類結果。
本發(fā)明采用的技術方案如下:
1.最大最小距離法優(yōu)化K-means聚類算法
設待聚類數(shù)據集R={Rp|p=1,2,…,n},數(shù)據記錄Rp的屬性個數(shù)是q,則Rp={rp1,rp2,…,rpq}。
為了避免k-means算法隨意選擇過于鄰近的初始中心點,提高聚類質量,對其用最大最小距離法進行優(yōu)化,得到k個初始聚類中心。具體方法如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于洪月華,未經洪月華許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811176056.7/2.html,轉載請聲明來源鉆瓜專利網。
- 基于大數(shù)據平臺的網絡安全實施系統(tǒng)及方法
- 基于事件驅動的智慧城市大數(shù)據體系及處理方法
- 一種大數(shù)據應用開發(fā)的系統(tǒng)及方法
- 家用設備報告的生成方法、大數(shù)據系統(tǒng)和存儲介質
- 一種基于計算機大數(shù)據的平臺架構
- 一種大數(shù)據處理系統(tǒng)
- 面向工業(yè)4.0的時空大數(shù)據分布式存儲檢索方法及系統(tǒng)
- 一種聯(lián)網式醫(yī)療大數(shù)據分級傳輸方法及系統(tǒng)
- 一種大數(shù)據信息監(jiān)控方法、裝置及計算機設備
- 一種知識產權大數(shù)據情報檢索系統(tǒng)





