日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種對海量文檔集的層次聚類方法及系統(tǒng)有效

專利信息
申請?zhí)枺?/td> 201611186920.2 申請日: 2016-12-20
公開(公告)號: CN106815310B 公開(公告)日: 2020-04-21
發(fā)明(設(shè)計)人: 趙淦森;黃曉烽;胡波;楊晉吉;朱佳;唐華;廖智銳;湯庸;林嘉洺;張海明 申請(專利權(quán))人: 華南師范大學(xué)
主分類號: G06F16/35 分類號: G06F16/35;G06F16/31
代理公司: 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 代理人: 胡輝;鄭澤萍
地址: 510631 *** 國省代碼: 廣東;44
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 海量 文檔 層次 方法 系統(tǒng)
【說明書】:

發(fā)明公開了一種對海量文檔集的層次聚類方法及系統(tǒng),該方法包括步驟:使用LDA模型對文檔集的文檔?詞項矩陣進(jìn)行分析,進(jìn)而生成文檔集的文檔?主題分布矩陣和主題?詞項分布矩陣;對文檔集進(jìn)行Word Embedding模型的訓(xùn)練,進(jìn)而將文檔集的詞典中的每個詞項映射為一個多維向量;對文檔集進(jìn)行聚類分析后生成對應(yīng)的層次主題樹;基于建立的層次主題樹對文檔集進(jìn)行層次聚類。本發(fā)明通過將LDA的全局語義信息和Word Embedding的細(xì)粒度語義信息結(jié)合起來進(jìn)行文檔層次聚類,可以全面地反映文檔的本質(zhì),使得生成的層次主題樹的層次結(jié)構(gòu)更加合理,可廣泛應(yīng)用于數(shù)據(jù)處理領(lǐng)域。

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種對海量文檔集的層次聚類方法及系統(tǒng)。

背景技術(shù)

名詞解釋:

詞項(term):組成文檔的最小的語言單元,可以是詞語或短語等。

文檔(document):具有一定長度的文本,例如一個句子、段落或一篇文章。在統(tǒng)計文本模型中,文檔通常被看作是由詞項組成的序列,并且不考慮詞項在文檔中出現(xiàn)的順序,即所謂的詞袋模型。

文檔集(corpus):由文檔組成的集合,也稱作語料庫。

詞典(dictionary):文檔集中所有不同詞項所構(gòu)成的詞項集。

主題:主題是對文檔內(nèi)容的一個抽象的描述,一般用多個詞項以及各個詞項來描述;

LDA:Latent Dirichlet allocation,隱含狄利克雷分布。

Word Embedding:詞向量;用向量的形式來描述詞項的一種方法,可以讓在某些維度上相似的詞項在向量空間中用相近的向量來表示;

K-means聚類:k-means算法是一個聚類算法,其可以對給定的數(shù)據(jù)集進(jìn)行自動聚類,形成指定數(shù)量的類族。

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。

隨著互聯(lián)網(wǎng)的普及以及數(shù)據(jù)的激增,人們越來越容易獲取到大量的文本數(shù)據(jù),例如新聞報道、blog文章、郵件、書籍、網(wǎng)頁等。對于這些海量的文本數(shù)據(jù),需要使用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)對其進(jìn)行分析挖掘,發(fā)現(xiàn)潛藏在文本數(shù)據(jù)之下的模式、趨勢,找出感興趣、有價值的話題和信息。

目前,對文檔進(jìn)行挖掘的一種方式就是對文檔集進(jìn)行分組,將有共性的文檔歸為同一類。對文檔集進(jìn)行分組的方法可以分成兩類。一類是有監(jiān)督的方法,即分類。分類算法一般包含兩個過程,分別是訓(xùn)練過程和分類過程。在訓(xùn)練過程中,需要使用大量標(biāo)注好類別的文檔作為訓(xùn)練集,然后利用分類器的訓(xùn)練算法從訓(xùn)練集中學(xué)習(xí)出分類模型。總的來說,分類過程就是對于一篇沒有類別信息的文檔,使用訓(xùn)練好的分類模型對文檔進(jìn)行分類,預(yù)測這篇文檔所屬的類別。分類的應(yīng)用有很多,例如應(yīng)用在新聞報道中的自動分類,為垃圾郵件、短信訓(xùn)練出分類器,從而實現(xiàn)垃圾郵件、短信的過濾等應(yīng)用場景。

分類算法雖然有很多的應(yīng)用場景,但卻存在一個主要的問題,那就是分類器的訓(xùn)練需要使用大量有類別信息的文本數(shù)據(jù)作為訓(xùn)練集,而這些類別信息是由人類根據(jù)自身的認(rèn)知人工標(biāo)注上去的。因此,在大量文本數(shù)據(jù)的情況下,標(biāo)注訓(xùn)練數(shù)據(jù)將會消耗很多的精力,大大降低分類效率,由此也限制了分類算法的應(yīng)用領(lǐng)域。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南師范大學(xué),未經(jīng)華南師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611186920.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 午夜激情在线| 欧美日韩国产三区| 久久aⅴ国产欧美74aaa| 日本福利一区二区| 91久久综合亚洲鲁鲁五月天| 国产的欧美一区二区三区 | 欧美日韩国产色综合一二三四| 国产99久久九九精品| 欧美乱妇在线观看| 狠狠色噜噜狠狠狠四色米奇| 欧美激情在线免费| 国产一区二区三区午夜| 国产精品丝袜综合区另类| 日韩一级免费视频| 国产日韩欧美一区二区在线观看| 久久久久久久国产| 欧美日韩精品在线播放| 久久影院一区二区| 国产69精品久久久久久久久久| 欧美一区二区三区不卡视频| 国产女人好紧好爽| 猛男大粗猛爽h男人味| 亚洲va久久久噜噜噜久久0| 国产理论一区二区三区| 午夜伦全在线观看| 91精品久久久久久久久久| 高清人人天天夜夜曰狠狠狠狠| 午夜三级大片| 日韩av电影手机在线观看| 久久精品爱爱视频| 91麻豆精品国产91久久久更新资源速度超快 | 欧美一区二区三区视频在线观看| 国产精品久久久久久久龚玥菲 | 欧美老肥婆性猛交视频| 午夜影院h| 香蕉av一区二区| 午夜少妇性影院免费观看| 中文字幕一二三四五区| 91精品久久久久久综合五月天| 午夜私人影院在线观看| 国产精品爽到爆呻吟高潮不挺| 亚洲乱码一区二区三区三上悠亚| 午夜爽爽视频| 久久久精品视频在线| 国产精品二区一区| 国产精品天堂| 少妇特黄v一区二区三区图片| 国产精品女同一区二区免费站| 中文字幕一区二区三区免费视频| 99久久免费精品视频| 中文字幕日韩有码| 夜夜躁狠狠躁日日躁2024| 国产剧情在线观看一区二区| 一区二区三区香蕉视频| 丝袜脚交一区二区| 日本午夜精品一区二区三区| 久久夜色精品亚洲噜噜国产mv| 国产二区不卡| 69精品久久| 97涩国一产精品久久久久久久| 国产一级片网站| 999国产精品999久久久久久| 精品福利一区| 精品国产一区二区三区国产馆杂枝| 久久一区二区精品视频| 日本精品一二区| 亚洲精品一区二区三区香蕉| 亚洲国产aⅴ精品一区二区16| 国产欧美日韩二区| 国产午夜亚洲精品羞羞网站 | 日韩毛片一区| 亚洲欧美制服丝腿| 国产91高清| 日韩欧美一区二区在线视频| 亚洲国产精品国自产拍久久| 色乱码一区二区三在线看| 国产精品综合久久| 大bbw大bbw巨大bbw看看| 亚洲少妇一区二区三区| 中文av一区| 97视频久久久| 日本不卡精品|