[發(fā)明專(zhuān)利]一種局部加權(quán)的不完整數(shù)據(jù)混雜聚類(lèi)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710993558.8 | 申請(qǐng)日: | 2017-10-23 |
| 公開(kāi)(公告)號(hào): | CN107766887A | 公開(kāi)(公告)日: | 2018-03-06 |
| 發(fā)明(設(shè)計(jì))人: | 張利;牛明航;孫穎;石振桔;郭煒儒;孫軍;王軍;趙中洲 | 申請(qǐng)(專(zhuān)利權(quán))人: | 遼寧大學(xué) |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06N3/12 |
| 代理公司: | 沈陽(yáng)杰克知識(shí)產(chǎn)權(quán)代理有限公司21207 | 代理人: | 羅瑩 |
| 地址: | 110136 遼寧*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 局部 加權(quán) 完整 數(shù)據(jù) 混雜 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種局部加權(quán)的不完整數(shù)據(jù)混雜聚類(lèi)方法,屬于不完整數(shù)據(jù)聚類(lèi)領(lǐng)域。
背景技術(shù)
信息技術(shù)高速發(fā)展帶來(lái)的是各個(gè)領(lǐng)域的海量、復(fù)雜的數(shù)據(jù),無(wú)論在容量方面還是規(guī)模方面都已經(jīng)遠(yuǎn)遠(yuǎn)的超出了人為可以處理的能力。為了高效且準(zhǔn)確的分析這些數(shù)據(jù),聚類(lèi)分析已經(jīng)成為新的發(fā)展和新的趨勢(shì),利用計(jì)算機(jī)編寫(xiě)的程序智能且準(zhǔn)確的完成分類(lèi)。
模糊C-均值(FCM)作為一個(gè)基本無(wú)監(jiān)督聚類(lèi)方法,通常適合處理沒(méi)有丟失屬性的數(shù)據(jù)聚類(lèi)。然而,在實(shí)際生活和工業(yè)應(yīng)用中數(shù)據(jù)漏輸、錄入錯(cuò)誤、設(shè)備故障、計(jì)劃改變、數(shù)據(jù)采集失敗及隨機(jī)噪聲影響等因素致使了數(shù)據(jù)的不再完整,這時(shí)對(duì)存在缺失屬性的數(shù)據(jù)進(jìn)行聚類(lèi)分析將會(huì)影響其結(jié)果的精準(zhǔn)性。傳統(tǒng)的WDS-FCM算法、PDS-FCM算法、OCS-FCM算法、NPS-FCM算法、NNI算法。聚類(lèi)效果仍然不是很理想。所以我們需要一種更加優(yōu)化的方法。
若只用利用局部加權(quán)優(yōu)化聚類(lèi)算法,與FCM算法相類(lèi)似都是采用梯度下降機(jī)制尋優(yōu)的;對(duì)初始設(shè)置的參數(shù)值都較敏感以及容易出現(xiàn)陷入局部收斂的局限性等等。若只利用遺傳算法優(yōu)化聚類(lèi)算法,雖然聚類(lèi)效果得到明顯的提升,但是仍有過(guò)早收斂等缺陷。
發(fā)明內(nèi)容
本發(fā)明針對(duì)上述問(wèn)題,提出一種更加合理的聚類(lèi)方法,該方法基于改進(jìn)的遺傳算法的局部加權(quán)的不完整數(shù)據(jù)混雜聚類(lèi)方法,并將運(yùn)用于數(shù)據(jù)分類(lèi)中,具體步驟如下:
本發(fā)明的目的是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的:一種局部加權(quán)的不完整數(shù)據(jù)混雜聚類(lèi)方法,其步驟如下:
(1)收集數(shù)據(jù):所使用的數(shù)據(jù)為UCI標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集包括:Iris、Bupa、Wine和Breast;
(2)數(shù)據(jù)處理:隨機(jī)使部分?jǐn)?shù)據(jù)缺少部分屬性,變成不完整數(shù)據(jù);
(3)數(shù)據(jù)估算:利用改進(jìn)的遺傳算法中的個(gè)體對(duì)不完整數(shù)據(jù)的缺失屬性進(jìn)行估算;
(4)聚類(lèi)分析:基于matlab軟件對(duì)估算的數(shù)據(jù)進(jìn)行模糊聚類(lèi)分析.
所述步驟(3)利用改進(jìn)的遺傳算法中的個(gè)體對(duì)不完整數(shù)據(jù)的缺失屬性進(jìn)行估算的過(guò)程如下:
(1)問(wèn)題編碼:由臨近樣本對(duì)缺失數(shù)據(jù)的屬性進(jìn)行估算,對(duì)要處理的問(wèn)題:優(yōu)化最近鄰樣本個(gè)數(shù)、模糊化參數(shù)和函數(shù)寬度參數(shù)進(jìn)行編碼處理;
(2)初始化參數(shù):設(shè)定模糊聚類(lèi)算法中聚類(lèi)類(lèi)別數(shù)c,迭代收斂閾值ε,遺傳種群規(guī)模為M,遺傳算法的選擇概率Ps,染色體交叉概率Pc,自主學(xué)習(xí)的混雜變異概率常量Pm1和Pm2,初始設(shè)置個(gè)體Ep(1)(p=1,2,...,M),最大迭代數(shù)量G;
(3)搜索臨近樣本:當(dāng)遺傳迭代次數(shù)為t(t=1,2,...,G),每一個(gè)個(gè)體表示為Ep(t)(1≤p≤M),根據(jù)相似度公式,搜索出缺失數(shù)據(jù)的q個(gè)最鄰近樣本;相似度公式如下:
其中和分別表示樣本和的第j個(gè)屬性值,且
(4)估算缺失屬性,獲取新的數(shù)據(jù)集:通過(guò)結(jié)合高斯核函數(shù)確定的權(quán)系數(shù)對(duì)缺失值得估值獲得新的數(shù)據(jù)集,公式如下:
缺失屬性可以表示為:
其中:Wk表示為不完整數(shù)據(jù)樣本的q個(gè)最近鄰樣本的相對(duì)應(yīng)屬性值的域;是q個(gè)最近鄰域樣本中相對(duì)應(yīng)屬性值之一;wkp(p∈Wk)表示權(quán)值,滿(mǎn)足限制條件0≤wkp≤1,權(quán)值的大小將取決于樣本與最近鄰樣本的相似度;權(quán)值wkp計(jì)算公式表示為:
其中:表示為采用高斯核函數(shù)定義的不完整數(shù)據(jù)樣本和最近鄰樣本之間的距離;σ表示函數(shù)寬度參數(shù),它將掌控著權(quán)值函數(shù)wkp的衰減程度;計(jì)算不完整的樣本與最近鄰域中的樣本的距離得到較合理的加權(quán)系數(shù),相鄰樣本與缺失樣本距離越大,相應(yīng)權(quán)值越小,該方法能夠更好的考慮數(shù)據(jù)集的鄰域結(jié)構(gòu)信息;δk表示歸一化常數(shù),計(jì)算公式表示為:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于遼寧大學(xué),未經(jīng)遼寧大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710993558.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





