[發(fā)明專利]一種對海量文檔集的層次聚類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201611186920.2 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN106815310B | 公開(公告)日: | 2020-04-21 |
| 發(fā)明(設(shè)計)人: | 趙淦森;黃曉烽;胡波;楊晉吉;朱佳;唐華;廖智銳;湯庸;林嘉洺;張海明 | 申請(專利權(quán))人: | 華南師范大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 胡輝;鄭澤萍 |
| 地址: | 510631 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 海量 文檔 層次 方法 系統(tǒng) | ||
本發(fā)明公開了一種對海量文檔集的層次聚類方法及系統(tǒng),該方法包括步驟:使用LDA模型對文檔集的文檔?詞項矩陣進(jìn)行分析,進(jìn)而生成文檔集的文檔?主題分布矩陣和主題?詞項分布矩陣;對文檔集進(jìn)行Word Embedding模型的訓(xùn)練,進(jìn)而將文檔集的詞典中的每個詞項映射為一個多維向量;對文檔集進(jìn)行聚類分析后生成對應(yīng)的層次主題樹;基于建立的層次主題樹對文檔集進(jìn)行層次聚類。本發(fā)明通過將LDA的全局語義信息和Word Embedding的細(xì)粒度語義信息結(jié)合起來進(jìn)行文檔層次聚類,可以全面地反映文檔的本質(zhì),使得生成的層次主題樹的層次結(jié)構(gòu)更加合理,可廣泛應(yīng)用于數(shù)據(jù)處理領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種對海量文檔集的層次聚類方法及系統(tǒng)。
背景技術(shù)
名詞解釋:
詞項(term):組成文檔的最小的語言單元,可以是詞語或短語等。
文檔(document):具有一定長度的文本,例如一個句子、段落或一篇文章。在統(tǒng)計文本模型中,文檔通常被看作是由詞項組成的序列,并且不考慮詞項在文檔中出現(xiàn)的順序,即所謂的詞袋模型。
文檔集(corpus):由文檔組成的集合,也稱作語料庫。
詞典(dictionary):文檔集中所有不同詞項所構(gòu)成的詞項集。
主題:主題是對文檔內(nèi)容的一個抽象的描述,一般用多個詞項以及各個詞項來描述;
LDA:Latent Dirichlet allocation,隱含狄利克雷分布。
Word Embedding:詞向量;用向量的形式來描述詞項的一種方法,可以讓在某些維度上相似的詞項在向量空間中用相近的向量來表示;
K-means聚類:k-means算法是一個聚類算法,其可以對給定的數(shù)據(jù)集進(jìn)行自動聚類,形成指定數(shù)量的類族。
TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。
隨著互聯(lián)網(wǎng)的普及以及數(shù)據(jù)的激增,人們越來越容易獲取到大量的文本數(shù)據(jù),例如新聞報道、blog文章、郵件、書籍、網(wǎng)頁等。對于這些海量的文本數(shù)據(jù),需要使用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)對其進(jìn)行分析挖掘,發(fā)現(xiàn)潛藏在文本數(shù)據(jù)之下的模式、趨勢,找出感興趣、有價值的話題和信息。
目前,對文檔進(jìn)行挖掘的一種方式就是對文檔集進(jìn)行分組,將有共性的文檔歸為同一類。對文檔集進(jìn)行分組的方法可以分成兩類。一類是有監(jiān)督的方法,即分類。分類算法一般包含兩個過程,分別是訓(xùn)練過程和分類過程。在訓(xùn)練過程中,需要使用大量標(biāo)注好類別的文檔作為訓(xùn)練集,然后利用分類器的訓(xùn)練算法從訓(xùn)練集中學(xué)習(xí)出分類模型。總的來說,分類過程就是對于一篇沒有類別信息的文檔,使用訓(xùn)練好的分類模型對文檔進(jìn)行分類,預(yù)測這篇文檔所屬的類別。分類的應(yīng)用有很多,例如應(yīng)用在新聞報道中的自動分類,為垃圾郵件、短信訓(xùn)練出分類器,從而實現(xiàn)垃圾郵件、短信的過濾等應(yīng)用場景。
分類算法雖然有很多的應(yīng)用場景,但卻存在一個主要的問題,那就是分類器的訓(xùn)練需要使用大量有類別信息的文本數(shù)據(jù)作為訓(xùn)練集,而這些類別信息是由人類根據(jù)自身的認(rèn)知人工標(biāo)注上去的。因此,在大量文本數(shù)據(jù)的情況下,標(biāo)注訓(xùn)練數(shù)據(jù)將會消耗很多的精力,大大降低分類效率,由此也限制了分類算法的應(yīng)用領(lǐng)域。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南師范大學(xué),未經(jīng)華南師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611186920.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種圖像推送方法、裝置以及移動終端
- 下一篇:一種問題匹配方法和裝置
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準(zhǔn)實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法





