[發明專利]適用于廣域網的分布式交通大數據并行聚類方法在審
| 申請號: | 201811176056.7 | 申請日: | 2018-10-10 |
| 公開(公告)號: | CN109359679A | 公開(公告)日: | 2019-02-19 |
| 發明(設計)人: | 洪月華 | 申請(專利權)人: | 洪月華 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F9/50 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530007 廣西壯族自治區南*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大數據 廣域網 聚類運算 并行 聚類 聚類算法 周期增量 分布式計算 最小距離法 并行執行 動態更新 聚類結果 數據移動 算法實現 特征群體 行為模式 運算效率 構建 拷貝 校正 新類 優化 交通 挖掘 移動 重復 改進 | ||
1.適用于廣域網的分布式交通大數據并行聚類方法,其特征在于:分布式大數據的并行聚類運算按時序周期分為歷史全量大數據分布式并行聚類運算和多個周期增量大數據分布式并行聚類運算持續執行,所述歷史全量大數據分布式并行聚類運算步驟如下:
(1)對于廣域網分布式存儲的交通大數據,將每個數據源節點的數據分別分為多個數據塊;
(2)歷史全量大數據的Map運算:對步驟(1)的每個數據塊分別用最大最小距離法優化K-means聚類算法進行Map運算,得到各個數據塊的本地聚類結果;
(3)歷史全量大數據的Combine運算:在數據源節點本地由Combine運算把步驟(2)各個數據塊Map運算所得本地聚類結果進行合并得到局部聚類中間結果;
(4)歷史全量大數據的Reduce運算:所有數據源節點把步驟(3)所得的各自的局部聚類中間結果分別經廣域網傳輸到中心節點,在所述中心節點進行Reduce運算把所有收到的局部聚類中間結果合并為全局聚類結果;
(5)若步驟(4)達到最大迭代次數或全局聚類結果收斂,則結束Reduce運算,輸出最終聚類結果;否則中心節點通過廣域網把步驟(4)所得全局聚類結果分發到所有數據源節點的每個數據塊,返回步驟(2)開始進行新一輪聚類迭代運算;
所述周期增量大數據分布式并行聚類運算步驟如下:
(A)將每個數據源節點當前周期內對應的增量數據分別分為多個增量數據塊;
(B)周期增量大數據的Map運算:根據所述歷史全量大數據分布式并行聚類運算得到的聚類結果或上一周期增量大數據分布式并行聚類運算得到的聚類結果,分別用Map運算對每個增量數據塊里的每一條數據記錄與已獲得的聚類中心進行歐式距離的并行計算,按照距離最小原則將所得歐式距離滿足約束條件的數據記錄分配到對應類;
(C)周期增量大數據的Combine運算:每個數據源節點里當前所有數據記錄包括當前周期增量數據、前序周期增量數據和歷史全量數據按所屬類,通過Combine運算并行地對每個類在該數據源節點的局部偏離誤差進行計算;
(D)周期增量大數據的Reduce運算:全部數據源節點的局部偏離誤差分別傳送到中心節點后,在該中心節點通過Reduce運算根據對應類進行合并,得到每個類的跨數據源節點的全局偏離誤差;若某個類的全局偏離誤差大于給定閾值,則該類被解體,并按照類內數據記錄所在數據源節點,與其它所有解體類、未被歸類及孤立點的數據記錄混合,在該數據源節點重新對混合數據記錄分塊后,用所述歷史全量大數據分布式并行聚類運算再次進行聚類運算;否則,該類的周期增量聚類結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于洪月華,未經洪月華許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811176056.7/1.html,轉載請聲明來源鉆瓜專利網。





