[發(fā)明專利]一種局部加權(quán)的不完整數(shù)據(jù)混雜聚類方法在審
| 申請?zhí)枺?/td> | 201710993558.8 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107766887A | 公開(公告)日: | 2018-03-06 |
| 發(fā)明(設(shè)計)人: | 張利;牛明航;孫穎;石振桔;郭煒儒;孫軍;王軍;趙中洲 | 申請(專利權(quán))人: | 遼寧大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/12 |
| 代理公司: | 沈陽杰克知識產(chǎn)權(quán)代理有限公司21207 | 代理人: | 羅瑩 |
| 地址: | 110136 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 局部 加權(quán) 完整 數(shù)據(jù) 混雜 方法 | ||
1.一種局部加權(quán)的不完整數(shù)據(jù)混雜聚類方法,其步驟如下:
(1)收集數(shù)據(jù):所使用的數(shù)據(jù)為UCI標準測試數(shù)據(jù)集包括:Iris、Bupa、Wine和Breast;
(2)數(shù)據(jù)處理:隨機使部分數(shù)據(jù)缺少部分屬性,變成不完整數(shù)據(jù);
(3)數(shù)據(jù)估算:利用改進的遺傳算法中的個體對不完整數(shù)據(jù)的缺失屬性進行估算;
(4)聚類分析:基于matlab軟件對估算的數(shù)據(jù)進行模糊聚類分析.
2.根據(jù)權(quán)利要求1所述的一種局部加權(quán)的不完整數(shù)據(jù)混雜聚類方法,其特征在于:所述步驟(3)利用改進的遺傳算法中的個體對不完整數(shù)據(jù)的缺失屬性進行估算的過程如下:
(1)問題編碼:由臨近樣本對缺失數(shù)據(jù)的屬性進行估算,對要處理的問題:優(yōu)化最近鄰樣本個數(shù)、模糊化參數(shù)和函數(shù)寬度參數(shù)進行編碼處理;
(2)初始化參數(shù):設(shè)定模糊聚類算法中聚類類別數(shù)c,迭代收斂閾值ε,遺傳種群規(guī)模為M,遺傳算法的選擇概率Ps,染色體交叉概率Pc,自主學(xué)習(xí)的混雜變異概率常量Pm1和Pm2,初始設(shè)置個體Ep(1)(p=1,2,...,M),最大迭代數(shù)量G;
(3)搜索臨近樣本:當遺傳迭代次數(shù)為t(t=1,2,...,G),每一個個體表示為Ep(t)(1≤p≤M),根據(jù)相似度公式,搜索出缺失數(shù)據(jù)的q個最鄰近樣本;相似度公式如下:
其中和分別表示樣本和的第j個屬性值,且
(4)估算缺失屬性,獲取新的數(shù)據(jù)集:通過結(jié)合高斯核函數(shù)確定的權(quán)系數(shù)對缺失值得估值獲得新的數(shù)據(jù)集,公式如下:
缺失屬性可以表示為:
其中:Wk表示為不完整數(shù)據(jù)樣本的q個最近鄰樣本的相對應(yīng)屬性值的域;是q個最近鄰域樣本中相對應(yīng)屬性值之一;wkp(p∈Wk)表示權(quán)值,滿足限制條件0≤wkp≤1,權(quán)值的大小將取決于樣本與最近鄰樣本的相似度;權(quán)值wkp計算公式表示為:
其中:表示為采用高斯核函數(shù)定義的不完整數(shù)據(jù)樣本和最近鄰樣本之間的距離;σ表示函數(shù)寬度參數(shù),它將掌控著權(quán)值函數(shù)wkp的衰減程度;計算不完整的樣本與最近鄰域中的樣本的距離得到較合理的加權(quán)系數(shù),相鄰樣本與缺失樣本距離越大,相應(yīng)權(quán)值越小,該方法能夠更好的考慮數(shù)據(jù)集的鄰域結(jié)構(gòu)信息;δk表示歸一化常數(shù),計算公式表示為:
(5)聚類原型和劃分矩陣更新:當?shù)螖?shù)取值為l=(1,2...)時,結(jié)合劃分矩陣Ul-1,利用聚類原型計算公式更新聚類原型Vl;劃分矩陣更新:按照聚類原型Vl,利用隸屬度計算公式更新劃分矩陣Ul;若出現(xiàn)的結(jié)果,則算法進行下一步,輸出劃分矩陣U和聚類原型V;否則將繼續(xù)下次尋優(yōu)過程l=l+1,重新聚類原型和劃分矩陣更新;聚類原型公式如下:
隸屬度計算公式如下:
(6)適應(yīng)度值確定:通過公式(計算每個個體Ep(t)(1≤p≤M)的適應(yīng)度值,采取升序排列染色體的適應(yīng)度值;按照適應(yīng)度值的大小判斷個體的優(yōu)劣性;適應(yīng)度公式如下:
其中vi表示為第i類的聚類原型,uik被用來表示樣本數(shù)據(jù)xk隸屬于模糊子類第i類的程度,對于條件滿足下式:
記U=[uik]∈Rc×n為模糊劃分矩陣;m∈(1,∞)表示模糊化參數(shù),它將決定聚類分析結(jié)果的模糊程度,其中一般經(jīng)典取值為m=2;
(7)修正的輪盤賭策略:在種群中選擇父代,種群前期時候,當適應(yīng)度比較分散的時候,采用適應(yīng)度進行一定程度的縮小,而且適應(yīng)度越是高的個體,縮小的幅度越大;在種群后期,當適應(yīng)度相對集中的時候,對其進行擴大,適應(yīng)度越大的個體,放大幅度也相對大;采用修正的輪盤賭的選擇策略公式,第t代個體的Ep(t)的被選擇概率如下:
其中:Fmax表示適應(yīng)度最大值;Favg表示適應(yīng)度平均值;F為適應(yīng)度值;c表示調(diào)節(jié)參數(shù);Ej(t)表示種群規(guī)模M中的個體;
(8)交叉操作:算法的交叉操作將父代優(yōu)良基因遺傳到子代,一對父代個體交叉操作后會產(chǎn)生多個子代個體,所以子代個體之間存有角逐現(xiàn)象;設(shè)Ep(t)和Ef(t)(p≠f)分別作為第t代的父代染色體,為增加競爭性,產(chǎn)生四個子代個體:
其中,我們把交叉算子的定義為β∈[0,1];min(Ep(t),Ef(t))和max(Ep(t),Ef(t))的每個元素分量取Ep(t)和Ef(t)(p≠f)相對應(yīng)的極小值和極大值;上面有4種交叉方式產(chǎn)生的子代方法個體勢必會好于傳統(tǒng)單一的算術(shù)或兩點式交叉方式,再按照產(chǎn)生的子代個體中挑選出適應(yīng)度值最優(yōu)的兩個個體,以此作為交叉操作產(chǎn)生的子代;
(9)變異操作:為免染早熟、基因變異位置的隨機性和一成不變的變異概率,于任意個體的適應(yīng)度值大于所有個體適應(yīng)度平均值的個體應(yīng)用較小變異概率進行變異引導(dǎo),這樣的做法有利于保證算法變異方向的正確性,較優(yōu)質(zhì)量的染色體得以遺傳給子代;對于任意個體的適應(yīng)度值小于所有染色體適應(yīng)度平均值的個體應(yīng)用較大變異概率進行變異引導(dǎo),這樣可以使得劣質(zhì)的個體被淘汰,自主學(xué)習(xí)的混雜變異概率為:
其中:Fmax表示適應(yīng)度最大值;Favg表示適應(yīng)度平均值,F(xiàn)表示適應(yīng)度;t表示遺傳優(yōu)化算法的迭代次數(shù);Pm1和Pm2分別為自主學(xué)習(xí)的混雜變異概率常量且Pm1<Pm2;
(10)根據(jù)選擇算子從候選中間代Em(t)個體生成子代個體E(t+1)個體;
(11).如果遺傳更新次數(shù)為t=G或遺傳優(yōu)化結(jié)果連續(xù)8代不發(fā)生變化,則停止尋優(yōu)運算并獲得適當?shù)膮?shù),并進行相應(yīng)的聚類分析;否則,設(shè)置t=t+1并且返回3)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于遼寧大學(xué),未經(jīng)遼寧大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710993558.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:高速鐵路鋼軌扣件彈條疲勞斷口自動識別方法
- 下一篇:一種使用更加方便的勺子
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





