[發明專利]一種文本聚類方法及裝置有效
| 申請號: | 201611035287.7 | 申請日: | 2016-11-21 |
| 公開(公告)號: | CN106599072B | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 王偉 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉曉菲;王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 方法 裝置 | ||
本發明實施例公開了一種文本聚類方法和裝置,實現了提高文本聚類效率和質量的目的。其中,所述方法包括:獲取待聚類文本,所述待聚類文本中包括各個特征詞;對所述待聚類文本的各個特征詞進行聚類,得到每一個詞聚類類別分別對應的特征詞集;構建與每個待聚類文本對應的文本向量,所述文本向量中的每一維表示一個詞聚類類別的特征詞集相對于一個待聚類文本的重要程度;利用所述每個待聚類文本對應的文本向量對所述待聚類文本進行聚類。
技術領域
本發明涉及自然語言文本智能分析領域,尤其涉及一種文本聚類方法及裝置。
背景技術
文本聚類是聚類分析技術在文本處理領域的一種應用。文本聚類的方法能自動發現一個文本集中的若干簇,并將文本集中的所有文本劃分成多個簇,使得屬于同一個簇中的文本之間的內容具有較高的相似度,而屬于不同簇的文本之間的內容差別較大。文本聚類方法可應用于很多方面,例如:美國國防部的話題檢測與追蹤(TDT,Topic detectionand tracking)項目就力圖通過文本聚類方法在一個新聞文本流中自動發現熱點話題;此外,還可以使用文本聚類方法對搜索引擎返回的結果網頁進行聚類,從而使用戶獲得更加結構化的和可理解的搜索結果;通過使用文本聚類方法,還可自動產生類似于雅虎目錄(Yahoo Directory)那樣的網絡文本的分類體系等。
目前的文本聚類方法通常是基于向量空間模型(Vector Space Model,VSM)的。在向量空間模型中,每個文本都被表示為一個多維歐幾里德空間中的文本向量,空間中的每一維都和一個特征詞相對應,文本向量在每一維上的取值一般定義為該維所對應的特征詞在該文本向量所對應的文本中出現的次數。對于任何一個文本集,利用向量空間模型可以產生一個基于特征詞的文本向量矩陣V(n*k),其中n為文本集中文本的數量,k為每個文本向量的維數,矩陣的每一行都對應一個文本向量。獲得文本集的向量矩陣后,可以利用各種經典的聚類算法如K均值(K-means)算法、層次凝聚聚類(HAC)算法等對文本集的向量矩陣進行聚類計算,從而產生文本聚類結果。
由于向量空間模型的每一個特征詞就是一維,當特征詞的數量較多時,維數也同樣很多,因此在獲得文本向量矩陣進行后續的聚類計算時,計算量會非常龐大,計算效率較低。
此外,因為現有技術中文本向量的維數較多,使得文本向量對文本的表示極為稀疏,即文本向量中各維語義表達極為分散,因而造成在以語義為依據的文本聚類過程中,效果較差。
發明內容
為了解決現有技術存在的技術問題,本發明提供了一種文本聚類方法及裝置,實現了提高文本聚類效率和質量的目的。
本發明實施例提供了一種文本聚類方法,所述方法包括:
獲取待聚類文本,所述待聚類文本中包括各個特征詞;
對所述待聚類文本的各個特征詞進行聚類,得到每一個詞聚類類別分別對應的特征詞集;
構建與每個待聚類文本對應的文本向量,所述文本向量中的每一維表示一個詞聚類類別的特征詞集相對于一個待聚類文本的重要程度;
利用所述每個待聚類文本對應的文本向量對所述待聚類文本進行聚類。
可選的,所述構建與每個待聚類文本對應的文本向量包括:
計算所述待聚類文本中每個特征詞的詞權重,所述詞權重表示所述特征詞相對于所在的待聚類文本的重要程度;
利用所述詞聚類類別中每個特征詞的詞權重,分別得到每個待聚類文本中每個詞聚類類別的類權重,所述類權重表示一個詞聚類類別的特征詞集相對于一個待聚類文本的重要程度;
利用所述每個待聚類文本中每個詞聚類類別的類權重分別構建所述與每個待聚類文本對應的文本向量,所述文本向量的每一維為對應待聚類文本中一個詞聚類類別的類權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611035287.7/2.html,轉載請聲明來源鉆瓜專利網。





