[發(fā)明專利]一種基于局部密度和測地距離的分層譜聚類方法在審
| 申請?zhí)枺?/td> | 201510233619.1 | 申請日: | 2015-05-08 |
| 公開(公告)號: | CN104778480A | 公開(公告)日: | 2015-07-15 |
| 發(fā)明(設(shè)計)人: | 葛洪偉;張濤;蘇樹智;楊金龍 | 申請(專利權(quán))人: | 江南大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 214122 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 局部 密度 距離 分層 譜聚類 方法 | ||
1.一種基于局部密度和測地距離的分層譜聚類方法,包括如下步驟:
(1)輸入數(shù)據(jù)集X={x1,x2,...,xn}∈Rd,xn表示數(shù)據(jù)集中的第n個樣本,n為樣本個數(shù),d為樣本維數(shù);
(2)局部密度計算:
令ρi為樣本xi的局部密度,i=1,2,…n。
其中n為樣本總數(shù),d(xi,xj)為樣本xi與樣本xj的歐式距離,dc為截斷距離。
(3)密度有向圖的構(gòu)造:
(3a)計算樣本點xi與局部密度高于ρi的點間最小距離:
(3b)定義集合Vall存放所有點的標(biāo)號,數(shù)組Nneigh存放每個點的最近高密度點標(biāo)號,根據(jù)式可以判斷樣本xi的最近高密度點標(biāo)號為:
Nneigh(xi)=j(luò)
其中局部密度最高的點,沒有與其最近的高密度點。為了方便選擇邊緣點,局部密度最高點的最近高密度點為本身,若局部密度最高點為xq,則Nneigh(xq)=q。
(3c)構(gòu)造密度有向圖:
每個點與其最近的高密度點構(gòu)造有向圖,方向為該點指向其最近的高密度點。
(4)有向圖剪枝和邊緣點集合生成:
Nneigh存放每個點的最近高密度點的標(biāo)號,在Nneigh中沒有出現(xiàn)標(biāo)號的點即是邊緣點,與邊緣點連接的邊需要進行剪枝。在對有向圖進行一次剪枝后,將邊緣點加入集合Vmarg。此時,有向圖中又會出現(xiàn)邊緣點,對其進行二次剪枝,將剪枝后邊緣點再次加入集合Vmarg。經(jīng)過二次剪枝后,剩下的點稱為非邊緣點,用集合V表示,滿足Vmarg∪V=Vall。
(5)無向連通圖構(gòu)造:
(5a)非邊緣點集合V中的點采用K近鄰方式構(gòu)圖:
尋找集合V中樣本點xi在集合V中的K個最近鄰樣本點,如果xj是xi在集合V中的K個最近鄰樣本點,則P(xi,xj)=1,P(xj,xi)=1;否則P(xi,xj)=0,P(xj,xi)=0。
(5b)邊緣點集合Vmarg中的點構(gòu)圖
緣點集合Vmarg中的樣本點xi,根據(jù)式Nneigh(xi)=j(luò)將每個邊緣點與其最近的高密度點構(gòu)造連接關(guān)系,則P(xi,xj)=1,P(xj,xi)=1;否則P(xi,xj)=0,P(xj,xi)=0。
(6)計算測地距離
(6a)初始化測地距離矩陣:
其中d(xi,xj)為樣本點xi與xj之間的歐氏距離。
(6b)計算最短路徑:
For?k=1to?n
dG(xi,xj)=min{dG(xi,xj),dG(xi,xk)+dG(xk,xj)}
End
(7)計算樣本集X內(nèi)所有點之間的相似度,得到相似度矩陣A,其中A(xi,xj)=0,i=j(luò)。尺度參數(shù)σi=d(xi,xl),xl為樣本點xi的第l個近鄰點。
(8)構(gòu)建度矩陣D和拉普拉斯矩陣L;其中,D為對角矩陣,對角元素表示第i個樣本xi的度,L=D-1/2AD-1/2;
(9)計算L的前k個最大特征值所對應(yīng)的特征向量,并構(gòu)成矩陣U,然后單位化得到矩陣Y=[yij]n×k,其中,
(10)將Y的每一行作為k維空間中的一個樣本點,通過K-means算法將這些樣本點聚成k類;當(dāng)且僅當(dāng)Y的第i行被分配為第j類時,將樣本xi分配為第j類。
2.根據(jù)權(quán)利要求1所述的譜聚類方法,其中步驟(4)按如下過程進行:
(2.1)初始化:V=Vall,m=2;其中m為剪枝的次數(shù),為空集合。
(2.2)將集合V中每個點的最近高密度點標(biāo)號存放在Vtemp中;
(2.3)Vtemp中重復(fù)出現(xiàn)的標(biāo)號,只保留一個。尋找在集合V中出現(xiàn)而在集合Vtemp中未出現(xiàn)的標(biāo)號,加入集合Vmarg(Vmarg=Vmarg+(V-Vtemp));其中+,-為集合運算。
(2.4)更新集合V=Vtemp,m=m-1;如果m>0轉(zhuǎn)至步驟(2.2),如果m≤0,程序結(jié)束,返回邊緣點集合Vmarg和非邊緣點集合V。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江南大學(xué),未經(jīng)江南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510233619.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





