[發明專利]一種基于層次聚類的自適應選擇性文本聚類集成方法在審
| 申請號: | 201810523039.X | 申請日: | 2018-05-28 |
| 公開(公告)號: | CN108681609A | 公開(公告)日: | 2018-10-19 |
| 發明(設計)人: | 徐森;花小朋;徐靜;徐秀芳;安晶;李先鋒;曹瑞;皋軍 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 224051 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本聚類 聚類 層次聚類 自適應 層次聚類算法 自適應選擇 子集 | ||
本發明公開了一種基于層次聚類的自適應選擇性文本聚類集成方法,包括以下步驟:文本聚類成員生成;判斷聚類集體的穩定性;根據聚類集體的穩定性自適應選擇聚類集體子集Subset;采用層次聚類算法對Subset進行集成。本發明的顯著優點是:能夠選出精度較高,差異較大的文本聚類成員,可以有效提高文本聚類集成的質量。
技術領域
本發明涉及一種基于層次聚類的自適應選擇性文本聚類集成方法,屬于數據挖掘技術領域。
背景技術
聚類分析已有五十年的研究歷史,它在機器學習、數據挖掘、信息檢索、模式識別等領域發揮了極其重要的作用。傳統的聚類算法層出不窮,然而沒有一種算法能夠有效識別出具有不同大小、不同形狀、不同密度甚至可能包含噪聲的簇。與傳統的聚類算法相比,聚類集成技術具備魯棒性、新穎性、穩定性等優點,目前已成為機器學習的研究熱點之一。現有的聚類集成方法都存在很多問題與不足,如對簇的形狀強加了某種結構、對簇的大小有很強的約束、計算復雜度高、得到局部最優解等。
發明內容
發明目的:針對現有技術中存在的問題與不足,本發明提供一種可以有效提升聚類集成效果的基于層次聚類的自適應選擇性文本聚類集成方法。
技術方案:基于層次聚類的自適應選擇性文本聚類集成方法,包括如下步驟。
1、文本聚類成員生成;2、判斷聚類集體的穩定性;3、根據聚類集體的穩定性自適應選擇不同的聚類集體子集Subset;4、采用層次聚類算法對Subset進行集成。
有益效果:與現有技術相比,本發明提供的基于層次聚類的自適應選擇性文本聚類集成方法能夠選出精度較高,差異較大的文本聚類成員,可以有效提高文本聚類集成的質量。
附圖說明
圖1是本發明方法的流程圖。
圖2是文本聚類成員生成的流程圖。
圖3是判斷聚類集體的穩定性的流程圖。
圖4是根據聚類集體的穩定性自適應選擇不同的聚類集體子集Subset的流程圖。
圖5是采用層次聚類算法對Subset進行集成的流程圖。
具體實施方式
下面結合具體實施例,進一步闡明本發明,應理解這些實施例僅用于說明本發明而不用于限制本發明的范圍,在閱讀了本發明之后,本領域技術人員對本發明的各種等價形式的修改均落于本申請所附權利要求所限定的范圍。
本發明的方法如圖1所示。步驟S01為文本聚類成員生成,該步驟將在后面的部分結合圖2進行具體介紹。步驟S02判斷聚類集體的穩定性,該步驟將在后面的部分結合圖3進行具體介紹.步驟S03根據聚類集體的穩定性自適應選擇聚類集體子集Subset,該步驟將在后面的部分結合圖4進行具體介紹。步驟S04采用層次聚類算法對Subset進行集成,該步驟將在后面的部分結合圖5進行具體介紹。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810523039.X/2.html,轉載請聲明來源鉆瓜專利網。





