[發明專利]一種面向數據流的全在線聚類方法在審
| 申請號: | 201810333661.4 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN108537285A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 杜韜;曲守寧;許婧文;王玉棟;武奎;龐戰;劉闖;張瑞;李國昌;牟國棟 | 申請(專利權)人: | 濟南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 張渲 |
| 地址: | 250022 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 數據流 聚類算法 全在線 動態數據流 數據流對象 角色判斷 衰減機制 在線聚類 在線數據 更新 鄰域 | ||
本發明涉及一種面向數據流的全在線聚類方法,其特征在于,包括以下步驟:S1:基于在線數據角色判斷的動態數據流聚類算法進行聚類;S2:根據多速率的數據衰減機制,更新數據流對象;S3:基于鄰域的密度更新聚類算法;S4:在線聚類調整。
技術領域
本發明屬于數據聚類技術領域,具體涉及一種面向數據流的全在線聚類方法。
背景技術
隨著無線傳感器網絡、智能移動終端、云計算以及物聯網等技術的發展,大量的數據以流的方式產生,數據流已成為目前的大數據處理的主要方式,因此面向數據流的智能計算成為了研究的熱點,數據流中進行知識發現被認為是未來大數據技術發展的十大技術趨勢之一。
數據流具有數據規模不斷增長、數據對象實時更新、數據屬性復雜多變、數據價值隨時間衰減等特點,這些特點導致面向數據流的樣本數據選擇與特征標注變得非常困難,因此以深度學習為代表的有監督的智能計算難以應用于數據流環境中。
聚類分析是無監督的機器學習方法,在金融分析、環境監測、工業控制等領域有著廣泛的用途,是機器學習領域重要的分支之一。
傳統的兩段式數據流聚類算法計算復雜度高,實時性差的缺陷;此為現有技術的不足之處。
因此,針對現有技術中的上述缺陷,提供設計一種面向數據流的全在線聚類方法;以解決現有技術中的上述缺陷,是非常有必要的。
發明內容
本發明的目的在于,針對上述現有技術存在的缺陷,提供設計一種面向數據流的全在線聚類方法,以解決上述技術問題。
為實現上述目的,本發明給出以下技術方案:
一種面向數據流的全在線聚類方法,其特征在于,包括以下步驟:
S1:基于在線數據角色判斷的動態數據流聚類算法進行聚類;
S2:根據多速率的數據衰減機制,更新數據流對象;
S3:基于鄰域的密度更新聚類算法;
S4:在線聚類調整。
步驟S1中,密度峰值聚類算法是目前比較流行的靜態聚類方法,通過對數據對象的密度屬性計算,將其分為簇頭點、簇內點和離群點三種角色,無需指定聚類數量,能夠區分任意形狀的數據分布。
本發明在密度峰值聚類算法的基礎上,引入在線數據角色判別方法。在所有的數據中,簇內點占絕大多數,因此給出公式(1)和公式(2)所示的不同的密度屬性組合方法,通過與簇內點的數值比較,自動發現簇頭和離群點。
γ=δ×ρ (1)
ω=δ/ρ (2)
其中ρ是每個數據點的局部密度值,δ是到當前點最近且密度高的點的距離,簇頭的ρ和δ都較大,而離群點的ρ較小,δ較大。根據公式(1),簇頭點的γ的值遠大于其他點,因此通過發現異于整體變化規律的數據點就可以自動的發現簇頭點;同理根據公式(2),離群點的ω值遠大于其他點,因此同樣可以通過發現異常點的方式得到離群點,而剩下的節點就是簇內點。以簇頭為核心,所有的簇內點選擇到自己最近的簇頭自動聚簇。
步驟S2中,根據多速率的數據衰減機制,更新數據流對象。數據流不斷產生新的數據對象的同時,現有數據也需要按一定的規律刪除,確保有總體數據規模不至于過大導致計算無法進行,常用的數據衰減函數如公式(3)所示。
在公式(3)中,λ是衰減系數,介于0-1之間的常數,t是當前時間,tx是數據產生時間,現有研究中,所有數據對象的衰減系數都是不變的,無法根據數據流中數據變化情況動態調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南大學,未經濟南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810333661.4/2.html,轉載請聲明來源鉆瓜專利網。





