[發明專利]基于動態聚類趨勢分析的增量聚類數據挖掘方法在審
| 申請號: | 201910445205.3 | 申請日: | 2019-05-27 |
| 公開(公告)號: | CN110263814A | 公開(公告)日: | 2019-09-20 |
| 發明(設計)人: | 樊仲欣 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 劉傳玉 |
| 地址: | 210032 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 聚類數據 趨勢分析 動態聚類 最小距離 連通圖 變異系數 定量數據 動態計算 動態增量 數據生成 數據序列 挖掘系統 運行效率 閾值分割 可信度 統計量 挖掘 簇間 抽樣 應用 | ||
1.一種基于動態聚類趨勢分析的增量聚類數據挖掘方法,其特征在于,包含以下步驟:
令現有頂點數據集合xq={xq1,xq2,…xqm}為第q個頂點的數據,1≤q≤n,n為頂點數量,idq為第q個頂點的唯一標識,頂點idq即第q個頂點;頂點唯一標識集合ID={id1,id2,...,idn};現有頂點數據集合的最小距離連通圖為MDG[ID,E],其中,E為最臨近邊矩陣、其內n-1行分別是n-1條連接頂點的邊,且該n-1條邊為所述n個頂點按照最臨近距離相互連接而成;E中的任意一條邊eqp=[idq,idp,dqp],其中dqp為頂點idq和頂點idp之間的歐氏距離,1≤p≤n;令棧T為空,則對于數據為xnew={xnew1,xnew2,…xnewm}的新增頂點idnew:
步驟1),建立新增頂點后頂點數據集合的最小距離連通圖;
步驟1.1),計算頂點xnew和X中各個頂點的歐氏距離,生成歐氏距離集合D={dnew1,dnew2,…dnewq,…,dnewn},其中,dnewq為頂點xnew和頂點xq之間的歐氏距離;
步驟1.2),篩選出D中第一個出現的最小距離dnewi,生成邊enewi=[idnew,idi,dnewi],并將邊enewi其加入至最臨近邊矩陣E中;
步驟1.3),將棧T置為空,將邊enewi壓入棧T中,設置檢索排除頂點唯一標識集合EXI={idnew};
步驟1.4),設置邊集合KN和JN為空,將棧T的棧頂數據彈出、即將棧T的棧頂數據取出后從棧中刪除,令棧T的彈出數據為邊ejk=[idj,idk,djk],首先使得EXI=EXI∪{idk};然后在最臨近邊矩陣E中檢索出所有包含頂點idk的邊,如果該邊的另一頂點的唯一標識不在集合EXI中,則將該邊存入集合KN中;
步驟1.5),如果集合KN不為空,將剛出棧的邊ejk壓入棧T;然后調整集合KN中第一條邊的前兩列數據順序,使得其第1列數據為idk、第2列數據為該邊另一頂點的唯一標識后,將該邊壓入棧T中;
遍歷棧T,獲取棧T中各條邊的第3列即其兩個頂點間的歐氏距離中第一個最大值dbc的所在邊ebc=[idb,idc,dbc];如果dbc大于新增頂點idnew和頂點idc之間的歐式距離dnewc,dnewc∈D,則從最臨近邊矩陣E中刪除邊ebc,并在最臨近邊矩陣E中新增邊enewc=[idnew,idc,dnewc],然后將棧T和集合EXI設置為空,并將邊enewc壓入棧T中、設置EXI={idnew};
步驟1.6),如果集合KN為空且棧T也為空,此時彈出的邊ejk=[idj,idk,djk]即為邊enewi,在最臨近邊矩陣E中檢索出所有包含頂點idj的邊,如果該邊的另一頂點的唯一標識不在集合EXI中,則將該邊存入集合JN中;如果JN不為空,調整集合JN中第一條邊的前兩列數據順序,使得其第1列數據為idj、第2列數據為該邊另一頂點的唯一標識后,將該邊壓入棧T中;
遍歷棧T,獲取棧T中各條邊的第3列即其兩個頂點間的歐氏距離中第一個最大值dbc的所在邊ebc=[idb,idc,dbc];如果dbc大于新增頂點idnew和頂點idc之間的歐式距離dnewc,dnewc∈D,則從最臨近邊矩陣E中刪除邊ebc,并在最臨近邊矩陣E中新增邊enewc=[idnew,idc,dnewc],然后將棧T和集合EXI設置為空,并將邊enewc壓入棧T中、設置EXI={idnew};
步驟1.7),遍歷最臨近邊矩陣E,獲得其第3列的最大值dmax;篩選出歐氏距離集合D中所有小于dmax的歐式距離,將其對應的頂點唯一標識的集合記為集合ID2,
步驟1.8),重復步驟1.4)至步驟1.7),直到EXI=ID∪{idnew}或者
步驟1.9),將{xnew1,xnew2,…xnewm,idnew}加入到X中,更新頂點數據集合X;將idnew加入到ID中,更新完成最小距離連通圖MDG[ID,E];
步驟2),計算聚類趨勢指數MDGCTI;
步驟2.1),計算最臨近邊矩陣E中除第一行外每一行第三列和上一行第三列的差值,取其中的最大值ddmax在E中對應行第三列的值和對應行下一行第三列的值計算平均值,得到均值ddmmax,ddmmax即為肘閾值;
步驟2.2),用最臨近邊矩陣E第三列DE中小于ddmmax的值建立歐式距離集合Dic,用最臨近邊矩陣E第三列DE中大于ddmmax的值建立歐式距離集合Doc;
步驟2.3),計算出歐式距離集合Dic、Doc中元素的個數numic、numoc;
步驟2.3.1),如果numic=numoc=0,MDGCTI=-1;
步驟2.3.2),如果numic或numoc不等于0;
步驟2.3.2.1),計算出歐式距離集合Dic、Doc的均值meanic、meanoc;
步驟2.3.2.2),計算出歐式距離集合Dic、DE的變異系數cvic、cvE,如果meanic=0,則cvic=0;
步驟2.3.2.3),根據以下公式計算聚類趨勢指數MDGCTI:
式中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910445205.3/1.html,轉載請聲明來源鉆瓜專利網。





