[發明專利]一種變粒度文本聚類的特征量化方法無效
| 申請號: | 200810209525.0 | 申請日: | 2008-11-26 |
| 公開(公告)號: | CN101436201A | 公開(公告)日: | 2009-05-20 |
| 發明(設計)人: | 劉遠超;劉銘;王曉龍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 哈爾濱市哈科專利事務所有限責任公司 | 代理人: | 劉 婭 |
| 地址: | 150001黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 粒度 文本 特征 量化 方法 | ||
(一)技術領域
本發明涉及一種變粒度文本聚類的特征量化技術。
(二)背景技術
近年來,可以很容易地從各種渠道獲得數目驚人的文本文檔。因此人們對發展能夠幫助用戶有效地導航、組織和總結這些文本信息技術的興趣越來越強。高質量的文本聚類技術在實現這個目標過程中扮演了重要的角色。通過將大量信息組織成少數有意義的簇,使人們可以從宏觀的角度來觀察數據。這種技術能夠提供導航和瀏覽機制,從而極大地改善檢索性能。
面向互聯網應用的文本聚類已經成為正在崛起并迅速被市場所認可的技術。例如,由美國CMU大學3名計算機科學家于2000年創立的聚類檢索公司VIVISIMO中采用的文本聚類核心技術(http://vivisimo.com/)已經轉讓給包括波音公司、Airbus、USA.gov、Procter?and?Gamble等數百家用戶,其中多數為全球財富五百強企業。美國著名企業家布萊德·格林斯潘投資創辦的聚類檢索系統BBMAO(http://www.bbmao.com)也有著獨特的技術特色,目前正在迅速占領市場,并剛剛于2006年在中國登陸。再例如,YAHOO中國公司等門戶網站每天都要獲得大量的新聞和知識文檔,需要上站。但這些信息的自動組織成為難題,以往一般是需要人力完成。
所謂文本聚類中的粒度,是指聚類處理生成的每個文檔簇內部的文檔之間的相似度情況,如果要求內部相似度必須較大,則一般會導致生成的文檔簇的數目較多,且每個文檔簇內部的文檔數較少;如果要求內部相似度較小,則一般會導致生成的文檔簇的數目較少,且每個文檔簇內部的文檔數較多。前者相當于在較小粒度下觀察數據,后者相當于在較大粒度下觀察數據。在文檔數目較多的情況下,用戶更喜歡從較宏觀(大粒度)的角度觀察數據,此時聚類處理的價值更加明顯和突出。
很多文本聚類方法目前普遍采用的詞頻VSM建模方法在較大粒度聚類情況下,由于對語言現象不夠敏感,難以捕捉到文檔之間的共性特征,將導致聚類結果出現較多失誤。因為在大粒度情況下,用戶期望從更宏觀的角度觀察數據,此時原本彼此具有較少顯式共性特征但語義關系密切的文檔需要被劃分到同一文檔簇中,因此對語義的分析和共性知識的挖掘就顯得非常必要。而在較小粒度的聚類情況下,由于分了較多的類,為了快速導航和瀏覽這些信息,也有必要考慮類間的關系,并盡可能將關系密切的類放在一起。
(三)發明內容
本發明的目的在于提供一種能夠克服現有技術由于特征量化不當導致不同粒度下,特別是較大粒度下文本聚類效果較差弊端的變粒度文本聚類的特征量化技術。
本發明通過下述步驟實現:1)文檔關鍵詞的概念擴展。利用知網,將文檔中的關鍵詞集合擴展為另外一個具有更高語義覆蓋能力的概念詞集合。例如,如果文檔中出現“花卉”、“蘭花”、“杜鵑”、“茶花”、“玫瑰”、“水仙”、“菊花”、“喇叭花”、“夾竹桃”、“燈芯草”之一,則由于其都可以視為一種花卉,因此可以映射為“花卉”一詞;2).特征表示和相似度計算:詞與詞之間的相似度可以理解為其公共特征的重合度有多大。文本聚類應用中文檔之間(以及文檔簇之間)的相似度大小也可以通過考察文檔之間公共特征的多少來判定。3)變粒度文本聚類特征量化技術與具體聚類算法進行結合使用,達到變粒度聚類的效果。
本發明還有這樣一些技術特征:
1、所述的通過綜合單純基于詞頻的相似度和基于特征擴展策略的相似度來計算兩篇文檔的綜合相似度,定義文檔d1和d2的綜合相似度sim(d1,d2)為
sim(d1,d2)=γ*sim1(d1,d2)+(1-γ)sim2(d1,d2);
2、所述的每個神經元在兩種不同特征空間上的向量構造與標準SOM方法完全相同,即都初始化為隨機小數構成的向量,在模型訓練過程中網絡結構的動態更新時,網絡結構調整和神經元向量的調整反映的是兩個不同空間的語義相似度的線型加權值,模型訓練結束后,每個神經元對應兩個向量,一個為這個神經元節點所映射的全部文檔詞頻向量的均值;另外一個是這個神經元節點所映射的全部特征擴展向量的均值;
3、所述的文檔語義特征擴展的具體措施可以為:
1)找到文中重要的內容詞,找到每個重要內容詞所映射的上位概念,將其上位概念詞放到概念向量中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810209525.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:剖腹產手術刀片
- 下一篇:一種便于洗滌的儲水灌溉裝置





