[發(fā)明專利]一種對海量文檔集的層次聚類方法及系統(tǒng)有效

申請?zhí)枺?/td>	201611186920.2	申請日：	2016-12-20
公開（公告）號：	CN106815310B	公開（公告）日：	2020-04-21
發(fā)明（設(shè)計）人：	趙淦森;黃曉烽;胡波;楊晉吉;朱佳;唐華;廖智銳;湯庸;林嘉洺;張海明	申請（專利權(quán)）人：	華南師范大學(xué)
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/31
代理公司：	廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205	代理人：	胡輝;鄭澤萍
地址：	510631 ***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種海量文檔層次方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種對海量文檔集的層次聚類方法及系統(tǒng)，該方法包括步驟：使用LDA模型對文檔集的文檔?詞項矩陣進(jìn)行分析，進(jìn)而生成文檔集的文檔?主題分布矩陣和主題?詞項分布矩陣；對文檔集進(jìn)行Word Embedding模型的訓(xùn)練，進(jìn)而將文檔集的詞典中的每個詞項映射為一個多維向量；對文檔集進(jìn)行聚類分析后生成對應(yīng)的層次主題樹；基于建立的層次主題樹對文檔集進(jìn)行層次聚類。本發(fā)明通過將LDA的全局語義信息和Word Embedding的細(xì)粒度語義信息結(jié)合起來進(jìn)行文檔層次聚類，可以全面地反映文檔的本質(zhì)，使得生成的層次主題樹的層次結(jié)構(gòu)更加合理，可廣泛應(yīng)用于數(shù)據(jù)處理領(lǐng)域。

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，特別是涉及一種對海量文檔集的層次聚類方法及系統(tǒng)。

背景技術(shù)

名詞解釋：

詞項（term）：組成文檔的最小的語言單元，可以是詞語或短語等。

文檔（document）：具有一定長度的文本，例如一個句子、段落或一篇文章。在統(tǒng)計文本模型中，文檔通常被看作是由詞項組成的序列，并且不考慮詞項在文檔中出現(xiàn)的順序，即所謂的詞袋模型。

文檔集（corpus）：由文檔組成的集合，也稱作語料庫。

詞典（dictionary）：文檔集中所有不同詞項所構(gòu)成的詞項集。

主題：主題是對文檔內(nèi)容的一個抽象的描述，一般用多個詞項以及各個詞項來描述；

LDA：Latent Dirichlet allocation，隱含狄利克雷分布。

Word Embedding：詞向量；用向量的形式來描述詞項的一種方法，可以讓在某些維度上相似的詞項在向量空間中用相近的向量來表示；

K-means聚類：k-means算法是一個聚類算法，其可以對給定的數(shù)據(jù)集進(jìn)行自動聚類，形成指定數(shù)量的類族。

TF-IDF（term frequency–inverse document frequency）是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。

隨著互聯(lián)網(wǎng)的普及以及數(shù)據(jù)的激增，人們越來越容易獲取到大量的文本數(shù)據(jù)，例如新聞報道、blog文章、郵件、書籍、網(wǎng)頁等。對于這些海量的文本數(shù)據(jù)，需要使用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)對其進(jìn)行分析挖掘，發(fā)現(xiàn)潛藏在文本數(shù)據(jù)之下的模式、趨勢，找出感興趣、有價值的話題和信息。

目前，對文檔進(jìn)行挖掘的一種方式就是對文檔集進(jìn)行分組，將有共性的文檔歸為同一類。對文檔集進(jìn)行分組的方法可以分成兩類。一類是有監(jiān)督的方法，即分類。分類算法一般包含兩個過程，分別是訓(xùn)練過程和分類過程。在訓(xùn)練過程中，需要使用大量標(biāo)注好類別的文檔作為訓(xùn)練集，然后利用分類器的訓(xùn)練算法從訓(xùn)練集中學(xué)習(xí)出分類模型。總的來說，分類過程就是對于一篇沒有類別信息的文檔，使用訓(xùn)練好的分類模型對文檔進(jìn)行分類，預(yù)測這篇文檔所屬的類別。分類的應(yīng)用有很多，例如應(yīng)用在新聞報道中的自動分類，為垃圾郵件、短信訓(xùn)練出分類器，從而實現(xiàn)垃圾郵件、短信的過濾等應(yīng)用場景。

分類算法雖然有很多的應(yīng)用場景，但卻存在一個主要的問題，那就是分類器的訓(xùn)練需要使用大量有類別信息的文本數(shù)據(jù)作為訓(xùn)練集，而這些類別信息是由人類根據(jù)自身的認(rèn)知人工標(biāo)注上去的。因此，在大量文本數(shù)據(jù)的情況下，標(biāo)注訓(xùn)練數(shù)據(jù)將會消耗很多的精力，大大降低分類效率，由此也限制了分類算法的應(yīng)用領(lǐng)域。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南師范大學(xué)，未經(jīng)華南師范大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611186920.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種圖像推送方法、裝置以及移動終端
下一篇：一種問題匹配方法和裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]一種對海量文檔集的層次聚類方法及系統(tǒng)有效

專利文獻(xiàn)下載