[發(fā)明專利]一種云計(jì)算環(huán)境下基于MapReduce的分布式并行文本聚類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710286671.2 | 申請(qǐng)日: | 2017-04-27 |
| 公開(公告)號(hào): | CN106971005A | 公開(公告)日: | 2017-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 沈曄;周天和;李思劍;任培榮 | 申請(qǐng)(專利權(quán))人: | 杭州楊帆科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 杭州之江專利事務(wù)所(普通合伙)33216 | 代理人: | 張慧英 |
| 地址: | 310000 浙江省杭州市西*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 計(jì)算 環(huán)境 基于 mapreduce 分布式 并行 文本 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及云計(jì)算技術(shù)領(lǐng)域,尤其涉及一種云計(jì)算環(huán)境下基于MapReduce的分布式并行文本聚類方法。
背景技術(shù)
文本挖掘是數(shù)據(jù)挖掘在文本類型數(shù)據(jù)上擴(kuò)展的研究,是以文本數(shù)據(jù)作為研究對(duì)象,利用數(shù)據(jù)挖掘相關(guān)方法,從中尋找文本信息的結(jié)構(gòu)、模型、模式等隱含的具有潛在價(jià)值的知識(shí)的過程,結(jié)合了數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語言處理、信息檢索和知識(shí)管理等不同領(lǐng)域的研究成果。以互聯(lián)網(wǎng)應(yīng)用為載體的文本數(shù)據(jù)的快速增長和商業(yè)分析的迫切需求,使得文本挖掘的重要性和緊迫性也日益增強(qiáng),其中在不需要訓(xùn)練集和預(yù)定義類別的情況下,從給定的文本集合中找到合理的文本簇劃分的文本聚類研究是文本挖掘領(lǐng)域的一個(gè)重要研究方向。
隨著互聯(lián)網(wǎng)各種應(yīng)用(微博、電子商務(wù)和搜索引擎)的大規(guī)模發(fā)展,如何快速有效地挖掘應(yīng)用產(chǎn)生的大規(guī)模文本已成為數(shù)據(jù)挖掘研究和應(yīng)用領(lǐng)域所面臨的一個(gè)巨大挑戰(zhàn)。分布式并行計(jì)算在面對(duì)大規(guī)模數(shù)據(jù)時(shí)計(jì)算能力強(qiáng)大且實(shí)現(xiàn)簡(jiǎn)單方便,因此將分布式并行計(jì)算引入文本挖掘領(lǐng)域所產(chǎn)生的分布式文本挖掘技術(shù)是近年來的研究熱點(diǎn)。云計(jì)算的興起為分布式并行計(jì)算提供了更多的框架,其中Google提出的MapReduce框架允許用戶通過定義Map和Reduce任務(wù)將大規(guī)模數(shù)據(jù)計(jì)算任務(wù)分配到多個(gè)計(jì)算節(jié)點(diǎn)上而獲得計(jì)算效率的提高,面向云計(jì)算的開源Hadoop平臺(tái)的出現(xiàn)更是為基于MapReduce的分布式并行計(jì)算模型實(shí)現(xiàn)提供了便利,并且有學(xué)者開發(fā)了針對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法的Mahout類庫。
發(fā)明內(nèi)容
本發(fā)明為克服上述的不足之處,目的在于提供一種云計(jì)算環(huán)境下基于MapReduce的分布式并行文本聚類方法,本方法首先利用向量空間模型提出一種文本相似度計(jì)算方法,在此基礎(chǔ)上,提出通過一次劃分實(shí)現(xiàn)簇質(zhì)心尋優(yōu)的二分K-means聚類算法;接著,基于MapReduce框架面向云計(jì)算應(yīng)用的大規(guī)模文本設(shè)計(jì)出并行聚類方法。本發(fā)明面向云計(jì)算平臺(tái)上的大規(guī)模文本挖掘應(yīng)用,提高了文本聚類的效率。
本發(fā)明是通過以下技術(shù)方案達(dá)到上述目的:一種云計(jì)算環(huán)境下基于MapReduce的分布式并行文本聚類方法,包括如下步驟:
(1)利用向量空間模型表示文本特征,結(jié)合文本相似度計(jì)算方法得到文本相似度計(jì)算模型;
(2)利用基于“互為最小相似度文本對(duì)”搜索的文本聚類算法選擇確定初始二分簇中心,通過一次劃分實(shí)現(xiàn)簇質(zhì)心尋優(yōu)的二分K-means聚類完成聚類,形成文本簇劃分;
(3)基于MapReduce框架,采用三個(gè)MapReduce任務(wù)進(jìn)行分布式并行計(jì)算,分別負(fù)責(zé)搜索“互為最小相似度文本對(duì)”、分配文本到兩個(gè)簇、最終的K-means文本聚類,直到簇劃分不再變化并輸出聚類結(jié)果。
作為優(yōu)選,所述的文本相似度計(jì)算方法如下:
給定文本di,dj,TA(di,dj)={ta1,ta2,...,tat,...,tah}表示di,dj所含特征詞的并集,h為并集中特征詞的數(shù)目;TS(di,dj)={ts1,ts2,...,tsk,...,tsl}表示di,dj所含特征詞的交集,l為交集中特征詞的數(shù)目;則文本di,dj在TS中的每個(gè)特征詞tsk上的相似度sim(di,dj,tsk)定義為
文本di,dj的相似度SIM(di,dj)定義為
作為優(yōu)選,所述利用向量空間模型表示文本特征的方法為:給定文本集合D={d1,d2,…,di,…,dN},di代表每個(gè)文本向量,采用向量空間模型可表示為
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州楊帆科技有限公司,未經(jīng)杭州楊帆科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710286671.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)
- 一種處理串行任務(wù)的數(shù)據(jù)處理裝置及方法
- 一種將MapReduce轉(zhuǎn)換為SQL的方法和裝置
- 一種基于MapReduce的數(shù)據(jù)處理方法和裝置
- MapReduce應(yīng)用的相關(guān)參數(shù)的配置方法和裝置
- MapReduce作業(yè)處理系統(tǒng)、服務(wù)器及處理方法
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種運(yùn)行MapReduce作業(yè)的方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)查詢的優(yōu)化方法和裝置
- 一種Sqoop集成多版本HBase的方法及裝置
- 一種計(jì)算HiveSql執(zhí)行進(jìn)度的方法





