[發明專利]一種針對混合長度文本集的文本聚類方法有效
| 申請號: | 201510037543.5 | 申請日: | 2015-01-26 |
| 公開(公告)號: | CN104573070B | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 張勇;陳信歡;李超;邢春曉 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京聿宏知識產權代理有限公司 11372 | 代理人: | 朱繪;張文娟 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本集 文本聚類 特征向量 長文本 短文本 文本 聚類 文本模型 主題參數 建模 短文本集 聚類結果 稀疏性 維度 平衡 | ||
本發明公開了一種針對混合長度文本集的文本聚類方法,所述方法包括以下步驟:劃分長/短文本步驟,將待聚類文本集劃分為長文本集和短文本集;建模步驟,按照特定的規則分別針對所述長文本集和所述短文本集中的文本進行建模從而獲取所述文本對應的文本模型;生成特征向量步驟,基于所述文本模型生成主題參數從而基于所述主題參數獲取相應文本的特征向量;文本聚類步驟,基于所述特征向量進行所述文本的聚類。本發明的聚類方法充分考慮了同時包含長文本以及短文本的混合長度文本集的特點,在平衡混合長度文本集稀疏性以及維度的前提下進行文本聚類,相較于現有技術,獲得的聚類結果更加理想。
技術領域
本發明涉及信息技術領域,具體說涉及一種針對混合長度文本集的文本聚類方法。
背景技術
隨著互聯網的發展,網上的文本越來越多,在這些巨量的文本中進行知識發現變得越來越困難。
為了便于在大量的文本中查詢檢索用戶所需的的內容,通常對文本集中的文本進行聚類操作。聚類是一個把數據對象集劃分為多個組或簇的過程,使得組內的對象具有很高的相似性,但與其他組中的對象很不相似,相異性和相似性根據描述對象的屬性值進行評估。聚類一直以來作為知識發現和數據挖掘的強有力工具已經植根于許多應用領域,如生物學、安全、商務智能和Web搜索。文本聚類更是近年來的一個研究熱點,例如,由于Web頁面的數目巨大,關鍵詞搜索常常會返回大量命中的網頁,可以用文本聚類將搜索結果分組,以簡明、容易訪問的方式提交這些結果。
近年來,人們已經提出了很多優秀的文本聚類算法,但它們大多數是為新聞、博客之類的傳統長文本而設計的。長文本通常包含多個主題并且具有高維度的特征表示,一般的文檔相似性測量無法考慮這種情況。最近,隨著社交網絡(如新浪微博)的廣泛出現,短文本扮演了非常重要的角色。短文本包含很少的詞匯,特征表示的時候是非常稀疏的。有人直接對短文本運用長文本的聚類方法,聚類的效果非常差。因此,很多研究就提出了針對短文本的文本聚類算法,實現了很好的聚類效果。
然而,很多實際的數據集不僅包含長文本,也包含很多短文本,即混合長度的文本集。由于短文本的存在,直接對混合長度文本集用基于詞袋的聚類方法,也很難達到理想的聚類效果。另一方面,如果直接對混合長度文本集用近來提出的短文本聚類算法,很多長文本由于降維操作會有信息損失,也達不到好的聚類效果。
因此,針對同時包含長文本以及短文本的混合長度文本集,需要一種新的文本聚類方法以獲取更為理想的聚類結果。
發明內容
針對同時包含長文本以及短文本的混合長度文本集,本發明提供了一種針對混合長度文本集的文本聚類方法,所述方法包括以下步驟:
劃分長短文本步驟,將待聚類文本集劃分為長文本集和短文本集;
建模步驟,按照特定的規則分別針對所述長文本集和所述短文本集中的文本進行建模從而獲取所述文本對應的文本模型;
生成特征向量步驟,基于所述文本模型生成主題參數從而基于所述主題參數獲取相應文本的特征向量;
文本聚類步驟,基于所述特征向量進行所述文本的聚類。
在一實施例中,在所述劃分長短文步驟中,基于所述文本中字符個數將所述文本劃分到所述長文本集或所述短文本集。
在一實施例中,將所述字符個數多于140個字符的文本劃分到所述長文本集,將所述字符個數少于或等于140個字符的文本劃分到所述短文本集。
在一實施例中,在所述劃分長短文步驟中,基于所述文本對應的文檔主題生成模型中特定隱藏主題的個數將所述文本劃分到所述長文本集或所述短文本集。
在一實施例中,將所述文本對應的文檔主題生成模型中概率大于特定閾值的隱藏主題定義為所述特定隱藏主題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510037543.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像檢索方法、圖像檢索裝置和終端
- 下一篇:信息搜索方法、信息搜索裝置和終端





