[發(fā)明專利]一種針對混合長度文本集的文本聚類方法有效
| 申請?zhí)枺?/td> | 201510037543.5 | 申請日: | 2015-01-26 |
| 公開(公告)號: | CN104573070B | 公開(公告)日: | 2018-06-15 |
| 發(fā)明(設(shè)計)人: | 張勇;陳信歡;李超;邢春曉 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京聿宏知識產(chǎn)權(quán)代理有限公司 11372 | 代理人: | 朱繪;張文娟 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本集 文本聚類 特征向量 長文本 短文本 文本 聚類 文本模型 主題參數(shù) 建模 短文本集 聚類結(jié)果 稀疏性 維度 平衡 | ||
1.一種針對混合長度文本集的文本聚類方法,其特征在于,所述方法包括以下步驟:
對混合長度文本劃分長短文本步驟,將待聚類文本集劃分為長文本集和短文本集;
建模步驟,按照特定的規(guī)則同時針對所述長文本集和所述短文本集中的文本進(jìn)行建模從而獲取所述文本對應(yīng)的文本模型;
生成特征向量步驟,基于所述文本模型生成主題參數(shù)從而基于所述主題參數(shù)獲取相應(yīng)文本的特征向量;
文本聚類步驟,基于所述特征向量進(jìn)行所述文本的聚類,在針對所述短文本集中的文本進(jìn)行建模時利用所述長文本集中的文本進(jìn)行輔助建模,從而減緩所述文本模型的稀疏程度;
在針對所述長文本集中的文本進(jìn)行建模時利用所述短文本集中的文本進(jìn)行輔助建模,從而降低所述文本模型的特征維度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述劃分長短文步驟中,基于所述文本中字符個數(shù)將所述文本劃分到所述長文本集或所述短文本集。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,將所述字符個數(shù)多于140個字符的文本劃分到所述長文本集,將所述字符個數(shù)少于或等于140個字符的文本劃分到所述短文本集。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述劃分長短文步驟中,基于所述文本對應(yīng)的文檔主題生成模型中特定隱藏主題的個數(shù)將所述文本劃分到所述長文本集或所述短文本集。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,將所述文本對應(yīng)的文檔主題生成模型中概率大于特定閾值的隱藏主題定義為所述特定隱藏主題。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述建模步驟中,在利用所述長/短文本集中的文本進(jìn)行輔助建模時,基于所述長文本集的文本個數(shù)與所述短文本集的文本個數(shù)之間的比例關(guān)系調(diào)整所述長/短文本集中的文本的輔助程度。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述建模步驟中,在利用所述長/短文本集中的文本進(jìn)行輔助建模時,基于所述長文本集中文本個數(shù)與所述短文本集中文本個數(shù)的比值采用相應(yīng)比例的所述長/短文本集中的文本信息。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述生成特征向量步驟中,首先通過對所述待聚類文本集的訓(xùn)練,估算出所述文本模型的參數(shù);然后對所述參數(shù)中關(guān)于文本主題的參數(shù)進(jìn)行歸一化,從而得到以主題數(shù)為維度的所述特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510037543.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:圖像檢索方法、圖像檢索裝置和終端
- 下一篇:信息搜索方法、信息搜索裝置和終端





