[發明專利]一種雙閾值順序聚類方法在審
| 申請號: | 202010087028.9 | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111368876A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 晏開;謝勝利 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 510060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 閾值 順序 方法 | ||
1.一種雙閾值順序聚類方法,其特征在于,應用于順序聚類系統中,所述順序聚類系統包括數據庫與處理器,所述方法包括以下步驟:
S1:處理器從數據庫提取數據集X={x}n,規模為n,n∈N;
S2:處理器確定閾值和閾值的取值范圍,其中,
S3:處理器確定聚類簇數量Q的值;
S4:根據閾值閾值和聚類簇數量Q進行順序聚類,直到所有數據點都被歸類。
2.根據權利要求1所述的雙閾值順序聚類方法,其特征在于,步驟S2中確定閾值和閾值具體為:
S2.1:每次以相同的順序表示數據,不同的閾值執行多次順序聚類;
S2.2:根據不同閾值下的順序聚類結果計算平均畸變程度,所述平均畸變程度為所有簇的畸變程度的平均,簇的畸變程度為每個簇的質點與簇內樣本點的平方距離誤差和;
S2.3:以橫坐標為值,縱坐標為平均畸變程度作圖,以圖中平均畸變程度趨于穩定的拐點作為閾值
S2.4:閾值選為閾值閾值的相鄰點對應的閾值選為閾值
3.根據權利要求2所述的雙閾值順序聚類方法,其特征在于,步驟S3中確定聚類簇數量Q的值,具體為:
以不同的順序表示數據,以相同的閾值,執行多次順序聚類,取不同順序情況下各聚類簇數量平均值q作為聚類簇數量Q。
4.根據權利要求3所述的雙閾值順序聚類方法,其特征在于,步驟S4中根據閾值閾值和聚類簇數量Q進行順序聚類,具體為:
S4.1:通過順序排列好數據集中的所有數據,依次進行運算:
以第一個數據點作為初始質心,并歸為A簇,依次算出其他點到A簇質心的距離d:
(1)若則認為這兩個點屬于一個簇,并重新計算A簇的質心;
(2)若則認為這兩個點不屬于一個簇,將這個點作為另一個質心,并歸為B類;(3)若則存在不確定性,該點的分配到待定數據集X’,等第一次遍歷數據集后再次掃描該類數據重新歸類;
S4.2:后面的數據點要同時計算與現有的所有簇的質心距離,重復步驟S4.1,直到所有點都被第一次歸類;
S4.3:第一次遍歷數據集X’,并且留下一項X’的待分類數據集,保持已歸類的數據結果,將X’中的數據依次執行步驟S4.1至S4.2,直到所有點都被歸類。
5.根據權利要求4所述的雙閾值順序聚類方法,其特征在于,步驟S4.1中質心的計算為所有數據點的橫坐標和縱坐標分別加起來再分別求均值點橫坐標和縱坐標。
6.根據權利要求5所述的雙閾值順序聚類方法,其特征在于,執行創建新的簇時,檢測已建立的簇個數q’是否等于q,若q’=q,則此后不再新建簇,將的點歸到最近質心的那個簇。
7.根據權利要求6所述的雙閾值順序聚類方法,其特征在于,步驟S4還包括:
S4.4:對聚類后的簇進行合并。
8.根據權利要求7所述的雙閾值順序聚類方法,其特征在于,步驟S4.4中簇的合并具體為:
定義一個距離值R,用來衡量簇之間的接近程度,比較兩個簇的質心,若小于R值,則將兩個簇合并。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010087028.9/1.html,轉載請聲明來源鉆瓜專利網。





