[發明專利]一種基于層次聚類的自適應選擇性文本聚類集成方法在審
| 申請號: | 201810523039.X | 申請日: | 2018-05-28 |
| 公開(公告)號: | CN108681609A | 公開(公告)日: | 2018-10-19 |
| 發明(設計)人: | 徐森;花小朋;徐靜;徐秀芳;安晶;李先鋒;曹瑞;皋軍 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 224051 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本聚類 聚類 層次聚類 自適應 層次聚類算法 自適應選擇 子集 | ||
1.一種基于層次聚類的自適應選擇性文本聚類集成方法,其特征在于,包括以下步驟:
S01:文本聚類成員生成;
S02:判斷聚類集體的穩定性;
S03:根據聚類集體的穩定性自適應選擇聚類集體子集Subset;
S04:采用層次聚類算法對Subset進行集成。
2.根據權利要求1所述的基于層次聚類的自適應選擇性文本聚類集成方法,其特征在于,所述文本聚類成員生成的步驟是:
S11:輸入聚類成員個數
S12:將控制參數
S13:判斷控制參數
S14:隨機生成
S15:得到聚類結果
S16:將控制參數
S17:構建聚類成員集合
3.根據權利要求1所述的基于層次聚類的自適應選擇性文本聚類集成方法,其特征在于,所述判斷聚類集體的穩定性的步驟是:
S21:計算聚類成員之間的規范化互信息NMI(Normalized Mutual Information);
S22:計算聚類集體的整體平均規范化互信息TANMI(Total Average NormalizedMutual Information);
S23:判斷TANMI是否大于或等于0.5,是則轉到步驟S24,否則轉到步驟S25;
S24:聚類集體穩定性為S;
S25:聚類集體穩定性為NS。
4.根據權利要求1所述的基于層次聚類的自適應選擇性文本聚類集成方法,其特征在于所述根據聚類集體的穩定性自適應選擇相應的聚類集體子集Subset的步驟是:
S31:使用層次聚類算法對所有聚類成員進行集成,得到初始一致劃分
S32:計算所有聚類成員與
S33:判斷聚類集體穩定性是否為S,是則轉到步驟S34,否則轉到步驟S35;
S34:選擇與
S35:選擇與
5.根據權利要求1所述的基于層次聚類的自適應選擇性聚類集成方法,其特征在于所述采用層次聚類算法對Subset進行集成的步驟是:
S41:根據Subset計算文本之間的相似度矩陣;
S42:使用層次聚類算法對文本集聚類;
S43:得到最終的聚類集成結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810523039.X/1.html,轉載請聲明來源鉆瓜專利網。





