[發(fā)明專利]一種基于三支c-means決策的目標(biāo)聚類方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811401683.6 | 申請日: | 2018-11-22 |
| 公開(公告)號: | CN109635849A | 公開(公告)日: | 2019-04-16 |
| 發(fā)明(設(shè)計)人: | 張凱;劉三女牙;孫建文 | 申請(專利權(quán))人: | 華中師范大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 武漢東喻專利代理事務(wù)所(普通合伙) 42224 | 代理人: | 方可 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)聚類 目標(biāo)數(shù)據(jù) 中心點 聚類 權(quán)重 機器學(xué)習(xí) 聚類分析 聚類技術(shù) 有效地 建模 決策 分配 | ||
本發(fā)明提供一種基于三支c?means決策的目標(biāo)聚類方法及系統(tǒng),屬于機器學(xué)習(xí)聚類技術(shù)領(lǐng)域。本發(fā)明將一個簇建模為positive域、boundary域和negtive域,依據(jù)簇的中心點與目標(biāo)數(shù)據(jù)之間的相對關(guān)系將目標(biāo)數(shù)據(jù)分配到簇的不同域,任何只要存在聚類邊界不明確的問題均可適用該方法,適用面廣,聚類效果好。進一步地,在簇的中心點計算中,根據(jù)目標(biāo)所屬的positive域和boundary域的數(shù)量來決定其權(quán)重,而非使用經(jīng)驗權(quán)重,可更加有效地對目標(biāo)進行聚類分析。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學(xué)習(xí)聚類技術(shù)領(lǐng)域,更具體地,涉及一種基于三支c-means決策的目標(biāo)聚類方法及系統(tǒng),特別適用于教育資源聚類。
背景技術(shù)
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,越來越多的目標(biāo)聚類技術(shù)被應(yīng)用到類別預(yù)測中,常見的應(yīng)用場景如圖像分割處理、生物醫(yī)學(xué)識別、教育資源分類等等。以教育資源分類為例,根據(jù)教育資源的種種特征:如類型(視頻、文本、習(xí)題等),使用時長(資源的平均被使用的時間長度),使用頻率(某學(xué)期內(nèi)資源被使用的次數(shù))等,可以聚類出若干不同類型的教育資源,其結(jié)果可以從應(yīng)用角度為教育資源的開發(fā)提供建議。進一步地,與學(xué)生信息數(shù)據(jù)協(xié)同分析,可以使教育資源的開發(fā)更有針對性。
目標(biāo)聚類的主要目的是把相似的目標(biāo)分配到一個簇中,使得同一個簇中的目標(biāo)相似度盡量高,而不同的簇中的目標(biāo)相似度盡量低。在傳統(tǒng)的聚類方法中,每一個目標(biāo)只能屬于一個簇,這類方法屬于硬聚類方法。然而隨著應(yīng)用的深入,硬聚類方法遇到了若干問題,其中之一就是簇與簇之間的不確定邊界問題,即有些目標(biāo)可能介于多個簇之間,這就超出了硬聚類方法的解決范圍,而軟聚類是專門針對這類問題的。
軟聚類中最重要的一類技術(shù)方案是,使用粗糙集(Rough Sets)或類似理論對簇進行建模,然后使用模糊集(Fuzzy Sets)或類似的理論對目標(biāo)進行建模,最終將完成建模的簇和目標(biāo)代入傳統(tǒng)的k-means聚類算法的框架中。
這類軟聚類方法中仍凸顯出兩個方面的問題。一方面,對簇的建模使用多種類似的理論,除了粗糙集,還有陰影集(shadowed sets)等,這些理論均是把一個簇看做三個域:一個是由絕對屬于該簇的目標(biāo)組成的域,一個是由可能屬于該簇的目標(biāo)組成的域,一個是由不可能屬于該簇的目標(biāo)組成的域。而本發(fā)明申請人發(fā)現(xiàn),這些理論具有內(nèi)部的統(tǒng)一性,均可以用三支決策理論加以概括,但是目前的軟聚類方法沒有使用三支決策理論對簇進行建模的;另一方面,在計算簇中心時,對處于不同域的目標(biāo)施加不同的權(quán)重,而這些權(quán)重是根據(jù)經(jīng)驗來決定的,這樣的后果是簇中心對權(quán)重值非常敏感。目前,這兩個方面均為亟需解決的問題。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的缺陷,本發(fā)明的技術(shù)目的在于提供了一種目標(biāo)聚類方法,使用三支決策理論對簇進行建模,可更加有效地對目標(biāo)進行聚類分析。
為了實現(xiàn)本發(fā)明技術(shù)目的,本發(fā)明采用了如下技術(shù)方案:
一種基于三支c-means決策的目標(biāo)聚類方法,將一個簇ci建模為positive域、boundary域和negtive域,分別表示為POS(ci)、BND(ci)和NEG(ci);其中,一個簇的positive域由絕對屬于該簇的目標(biāo)組成,一個簇的boundary域由可能屬于該簇的目標(biāo)組成,一個簇的negtive域由不可能屬于該簇的目標(biāo)組成;
該方法包括如下步驟:
(1)將待聚類的目標(biāo)數(shù)據(jù)xj隨機初始分配到k個簇的positive域,其中,xj∈U,U是所有待聚類目標(biāo)數(shù)據(jù)組成的集合;
(2)計算k個簇的中心點;
(3)根據(jù)計算出的各個中心點,重新分配所有目標(biāo)數(shù)據(jù)到k個簇的不同域;
(4)檢查迭代終止條件是否滿足,若不滿足則回到第(2)步,否則,結(jié)束;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中師范大學(xué),未經(jīng)華中師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811401683.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種信息風(fēng)險監(jiān)測方法及裝置
- 網(wǎng)點聚類方法及裝置
- 數(shù)據(jù)聚類的簇數(shù)確定方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種短文本聚類方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種圖片聚類管理方法、系統(tǒng)、設(shè)備及介質(zhì)
- 向量聚類訓(xùn)練方法及裝置
- 文本識別方法和裝置、存儲介質(zhì)及電子設(shè)備
- 數(shù)據(jù)聚類方法、相關(guān)設(shè)備及存儲介質(zhì)
- 一種衛(wèi)星網(wǎng)絡(luò)聚類方法、裝置、電子設(shè)備及存儲介質(zhì)
- 車輛數(shù)據(jù)聚類方法以及車輛軌跡還原方法
- 一種數(shù)據(jù)壓縮方法、裝置及終端
- 目標(biāo)聲數(shù)據(jù)訓(xùn)練裝置和目標(biāo)聲數(shù)據(jù)訓(xùn)練方法
- 數(shù)據(jù)對比方法和裝置
- 外部數(shù)據(jù)的處理方法及裝置
- 一種查詢HDFS數(shù)據(jù)方法及系統(tǒng)
- 一種動靜態(tài)目標(biāo)識別方法
- 數(shù)據(jù)查詢方法、裝置、計算機設(shè)備和可讀存儲介質(zhì)
- 一種數(shù)據(jù)寫入、讀取方法及裝置
- 一種數(shù)據(jù)場景的生成方法、裝置及計算機設(shè)備
- 消費數(shù)據(jù)的訂閱方法、裝置及存儲介質(zhì)





