[發明專利]一種基于分布密度的多源大氣數據聚類方法有效
| 申請號: | 202010314605.3 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111507415B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 樊仲欣 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F18/23 | 分類號: | G06F18/23;G06F17/16;G06F16/901;G06F16/906 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布 密度 大氣 數據 方法 | ||
本發明公開了一種基于分布密度的多源大氣數據聚類方法,首先,構建一個M維數據組成的數據量為N的數據集DS,并判斷數據集DS的聚類趨勢;其次,生成數據集的距離矩陣DM的全鄰域分布密度矩陣DDM;然后,以分布密度閾值ddth為參數,劃分出全鄰域分布密度矩陣DDM的密度峰值與離散點;最后,截取全體數據的邊矩陣E將部分離散點合并入密度峰值,得到聚類結果。本發明僅使用分布密度閾值這一單一參數實現控制聚類結果,并確保可聚類任意分布形狀、分布均勻性的數據;且能自動分離出噪點。
技術領域
本發明屬于數據挖掘領域,具體涉及一種基于分布密度的多源大氣數據聚類方法。
背景技術
在大數據挖掘和分析的實際應用中,數據是從不同領域的不同來源收集或從不同的特征采集器獲取的。例如,網站上共享的某張圖片往往有不同來源的文本標記和描述;特定的新聞由多個新聞機構報道;相同的語義(如hello)用多種語言形式表示;圖像由不同類型的特征描述。所有這些都稱為多源數據(或多視圖數據)。這些數據表現出異質性,但又具有潛在的聯系。換言之,在這些數據中每個單獨的源(或視圖)對于知識發現任務都有其特定的屬性,而不同的源通常包含應加以利用的互補信息。因此,如何利用這些信息挖掘多源數據的潛在價值,在大數據研究中具有十分重要的意義。在現實數據分析中的應用也需要能夠處理多源數據對象的先進技術,以將數據挖掘和知識發現推向新的高度。
大氣數據是具有多源性的典型范例,這是因為近現代科學技術的迅猛發展導致了對于大氣的觀測和監測手段不斷趨于多樣化,出現了地基(自動站、雷達)、海基(浮標)、空基(氣球、飛機)、天基(衛星)這樣一套全方位的立體化觀測監測體系,而不同的觀測監測手段所產生的多源數據是既各有特點又相互關聯的,所以對多源大氣數據進行聚類分析,根據數據的屬性性質進行歸類,這對于類簇的發掘(常見天氣現象統計)、離群點或噪點檢測(災害性天氣識別)以及更進一步的天氣預測預警等都是必不可少的步驟。
聚類算法主要有劃分式、密度式,網格式,層次式,其中劃分式聚類以K-means算法為代表,通過指定簇數以及尋找簇中心點進行聚類,密度式聚類以DBSCAN算法為代表,通過查找密度相連對象的最大集合進行聚類,網格式聚類以CLIQUE算法為代表,它把每個數據維劃分成不重疊的網格,從而把數據對象整個嵌入網格空間劃分成單元再進行基于密度的聚類,層次式聚類以BIRCH算法為代表,它建立一個聚類特征樹,然后對樹的葉子結點按簇直徑進行分裂從而得到聚類結果。上述各類聚類算法經過不斷的發展和相互借鑒融合后出現了一種經典的密度峰值聚類算法DPC,該算法刻畫聚類中心為本身密度大并且與其它密度更大的數據點間的距離相對更大,進而實現了用單一的截斷距離參數控制任意分布形狀的數據高效聚類,但是并不是所有的數據集都能通過決策圖準確地找到簇中心而且該算法并不能判別噪點,因此有研究人員是對DPC算法進行改進,力求解決該算法截斷距離的確定和簇中心的選擇這兩大問題,而這雖然取得了一定的成效,但簇中心選取及未分配點分配準確率卻仍然不高,一方面原因是簇中心難以準確判明,另一方面是由于其所采取的未分配點最近鄰分配策略不完善,因此,本發明提出一種全新的基于數據全鄰域分布密度的多源大氣數據聚類分析算法,該算法可以解決現有技術中存在的增加聚類參數和無法自動化的判別噪點的問題。
發明內容
發明目的:本發明提供一種基于分布密度的多源大氣數據聚類方法,可通過單一參數實現控制聚類結果,且能自動找出簇邊界點并分離出噪點。
技術方案:本發明所述的一種基于分布密度的多源大氣數據聚類方法,包括以下步驟:
(1)構建數據集DS,并判斷數據集DS的聚類趨勢;所述數據集DS為一個M維數據組成的數據量為N的數據集;
(2)生成數據集的距離矩陣DM的全鄰域分布密度矩陣DDM;
(3)以分布密度閾值ddth為參數,劃分出全鄰域分布密度矩陣DDM的密度峰值與離散點;
(4)截取全體數據的邊矩陣E將簇邊界點合并入簇核,得到聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010314605.3/2.html,轉載請聲明來源鉆瓜專利網。





