[發明專利]一種文本聚類元學習方法及裝置有效
| 申請號: | 200710117752.6 | 申請日: | 2007-06-22 |
| 公開(公告)號: | CN101079072A | 公開(公告)日: | 2007-11-28 |
| 發明(設計)人: | 向繼;夏魯寧;荊繼武;馮登國 | 申請(專利權)人: | 中國科學院研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 | 代理人: | 宋志強;麻海明 |
| 地址: | 100039北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 聚類元 學習方法 裝置 | ||
技術領域
本發明涉及文本聚類方法,尤其是指一種文本聚類元學習方法及裝置。
背景技術
文本聚類方法是一種聚類分析方法,是聚類分析技術在文本處理領域的一種應用。文本聚類的方法能自動發現一個文本集中的若干簇,并將文本集中的所有文本劃分成多個簇,使得屬于同一個簇中的文本之間的內容具有較高的相似度,而屬于不同簇的文本之間的內容差別較大。文本聚類方法可應用于很多方面,例如:美國國防部的話題檢測與追蹤(TDT,Topic?detection?and?tracking)項目就力圖通過文本聚類方法在一個新聞文本流中自動發現熱點話題;此外,還可以使用文本聚類方法對搜索引擎返回的結果網頁進行聚類,從而使用戶獲得更加結構化的和可理解的搜索結果;通過使用文本聚類方法,還可自動產生類似于雅虎目錄(Yahoo?Directory)那樣的網絡文本的分類體系等。
目前的文本聚類方法通常是基于向量空間模型的。在向量空間模型中,每個文本都被表示為一個多維歐幾里德空間中的文本向量,空間中的每一維都和一個特征詞相對應,文本向量在每一維上的取值一般定義為該維所對應的特征詞在該文本向量所對應的文本中出現的次數。對于任何一個文本集,利用向量空間模型可以產生一個基于特征詞的文本向量矩陣V(n*k),其中n為文本集中文本的數量,k為每個文本向量的維數,矩陣的每一行都對應一個文本向量。獲得文本集的向量矩陣后,可以利用各種經典的聚類算法如K均值(K-means)算法算法、層次凝聚聚類(HAC)算法等對文本集的向量矩陣進行聚類計算,從而產生文本聚類結果。
現有的聚類算法大致可分為層次聚類、劃分聚類、基于密度的聚類、基于網格的聚類和基于模型的聚類算法等幾種。其中劃分聚類算法,尤其是K-means算法一直是應用最為廣泛的聚類算法之一。在K-means算法中通過比較數據樣本與各個類中心點之間的距離劃分類別,經過反復迭代將數據集劃分成K個部分。其中,K為希望得到的簇的數量,需預先指定。具體來說,上述的K-means算法包括三個步驟:第一步,在數據集中確定K個初始類中心點,分別代表K個類簇;第二步,將每一個數據樣本賦予與其距離最近的類中心點所代表的類簇;第三步,計算當前形成的各個類簇的中心點,代替原有類中心點,并返回第二步;如此循環執行第二、三步,直到結果收斂,也就是所有數據樣本所屬簇不再發生變化為止,從而達到劃分聚類的目的。
除了文本聚類方法外,文本分類是另一種進行文本分析的方法。與文本聚類方法所不同的是,文本分類方法需要人工進行訓練,即需要人工指定類別,并為每個類別提供一定的訓練數據,然后根據被檢測文本與訓練數據之間的差異判斷被檢測文本所屬的類別。常用的文本分類方法有K最近鄰(KNN,K-Nearest?Neighbor)算法等。
目前,一般的文本聚類和分類方法都是將文本集中的文本劃分到一個特定的簇或者類別中,而軟聚類和軟分類方法則是對上述文本聚類和文本分類方法的一個擴展,這兩種方法并不是將文本集中的文本劃分到一個簇或者類別中,而是以不同的概率將文本集中的文本劃分到多個簇和類別中。一般來說,通過軟聚類和軟分類方法所得到的分類結果更加科學。
目前文本聚類方法存在的一個主要問題在于文本聚類方法的穩定性差,即對于不同的文本集,使用一個文本聚類方法對其進行處理的結果可能時好時壞;而且有可能出現對某一個文本集,使用文本聚類方法A比使用文本聚類方法B所得到的分類結果好,而對另一個文本集,則使用文本聚類方法A比使用文本聚類方法B所得到的分類結果差的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院研究生院,未經中國科學院研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710117752.6/2.html,轉載請聲明來源鉆瓜專利網。





