[發(fā)明專(zhuān)利]基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710777064.6 | 申請(qǐng)日: | 2017-09-01 |
| 公開(kāi)(公告)號(hào): | CN107590218B | 公開(kāi)(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 蔡晨曉;畢濤;徐楊;卜京;姚娟;殷明慧 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京理工大學(xué) |
| 主分類(lèi)號(hào): | G06F16/182 | 分類(lèi)號(hào): | G06F16/182;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 南京理工大學(xué)專(zhuān)利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark 特征 結(jié)合 中文 文本 高效 方法 | ||
1.一種基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法,其特征在于,包括以下步驟:
步驟1,在物理服務(wù)器上搭建Spark平臺(tái)以及HDFS文件系統(tǒng);
步驟2,將原始文本數(shù)據(jù)集上傳到HDFS文件系統(tǒng)中,利用ICTCLAS漢語(yǔ)分詞系統(tǒng)和Hadoop并行計(jì)算平臺(tái)將原始文本數(shù)據(jù)集進(jìn)行并行分詞處理,并重新上傳至HDFS文件系統(tǒng)中;
步驟3,Spark平臺(tái)從HDFS文件系統(tǒng)中讀入分好詞后的數(shù)據(jù)集,將其轉(zhuǎn)化為彈性分布式數(shù)據(jù)集RDD,并根據(jù)用戶(hù)程序中設(shè)定的RDD中分區(qū)的數(shù)目來(lái)啟動(dòng)一定數(shù)目的并發(fā)線(xiàn)程讀取數(shù)據(jù),并將其存儲(chǔ)在系統(tǒng)內(nèi)存中;
步驟4,按照RDD中分區(qū)之間的相互依賴(lài)關(guān)系,Spark作業(yè)調(diào)度系統(tǒng)將寫(xiě)好的應(yīng)用程序拆分為不同的任務(wù)組,然后并行運(yùn)行各個(gè)任務(wù)組中的任務(wù);
步驟5,對(duì)讀取到的數(shù)據(jù)進(jìn)行預(yù)處理,將步驟3中緩存在RDD中的數(shù)據(jù)轉(zhuǎn)化為純文本的形式,過(guò)濾掉停用詞;
步驟6,對(duì)預(yù)處理后的文本進(jìn)行降維處理,挑選出對(duì)文本表示貢獻(xiàn)最大的詞項(xiàng);
步驟7,將步驟6中得到的數(shù)據(jù)利用文本深度表示模型Word2Vec計(jì)算出每個(gè)詞項(xiàng)的詞向量,得到文本的語(yǔ)義相似度;計(jì)算文本語(yǔ)義相似度的具體過(guò)程為:
對(duì)于步驟6中降維處理后得到的每篇文本中的詞項(xiàng),利用文本深度表示模型Word2Vec得到每個(gè)詞項(xiàng)的詞向量,進(jìn)而計(jì)算詞項(xiàng)與詞項(xiàng)之間的語(yǔ)義相似度;得到詞項(xiàng)之間的語(yǔ)義相似度之后,計(jì)算關(guān)鍵詞項(xiàng)集合的語(yǔ)義相似度,具體計(jì)算公式由式(1)給出:
在關(guān)鍵詞項(xiàng)集合的語(yǔ)義相似度之后,用關(guān)鍵詞項(xiàng)集合的語(yǔ)義相似度來(lái)表示文本之間的語(yǔ)義相似度,其中sim(w1k,w2l)表示兩個(gè)關(guān)鍵詞項(xiàng)w1k,w2l之間的語(yǔ)義相似度,m是第一篇文本的關(guān)鍵詞項(xiàng)數(shù),n是第二篇文本的關(guān)鍵詞項(xiàng)數(shù),V1,V2表示任意兩篇文本的關(guān)鍵詞項(xiàng)集合,其定義由式(2)給出:
步驟8,將步驟6中得到的數(shù)據(jù)按照TF-IDF計(jì)算公式重新計(jì)算每個(gè)詞項(xiàng)在各自文本中所占的權(quán)重,然后將每篇文本的詞項(xiàng)的TF-IDF權(quán)重按詞項(xiàng)順序組合成一個(gè)向量來(lái)表示文本,計(jì)算得到所有向量之間的余弦相似度,以此來(lái)表示文本之間的余弦相似度Cosim(V1,V2);
步驟9,將步驟7得到的文本語(yǔ)義相似度與步驟8得到的文本余弦相似度進(jìn)行結(jié)合,計(jì)算得到最終的文本相似度;計(jì)算最終文本相似度的具體過(guò)程由式(3)給出:
Textsim(V1,V2)=wf*Vecsim(V1,V2)+(1-wf)*Cosim(V1,V2) (3)
其中wf為語(yǔ)義加權(quán)因子,具體的計(jì)算過(guò)程由式(4)給出:
其中,TFIDF(w1k)表示關(guān)鍵詞w1k在對(duì)應(yīng)文本中的TF-IDF權(quán)值;式(4)中的集合Λ1和Λ2的定義由式(5)給出:
其中,μ為用戶(hù)設(shè)定的相似度閾值;
步驟10,利用最大距離法對(duì)文本進(jìn)行聚類(lèi),計(jì)算得到最終的聚類(lèi)結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法,其特征在于,步驟5中對(duì)所述RDD數(shù)據(jù)進(jìn)行預(yù)處理的具體過(guò)程為:
Spark平臺(tái)的各個(gè)工作節(jié)點(diǎn)從字符串類(lèi)型的RDD中讀取數(shù)據(jù)進(jìn)行操作,首先對(duì)讀取到的數(shù)據(jù)進(jìn)行篩選,從中篩選出名詞、動(dòng)詞以及形容詞;其次,將所有的人名、地名以及機(jī)構(gòu)名進(jìn)行統(tǒng)一的替換;最后按照停用詞字典進(jìn)行Filter過(guò)濾操作,過(guò)濾掉停用詞。
3.根據(jù)權(quán)利要求1所述的基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法,其特征在于,步驟6中對(duì)文本進(jìn)行降維處理的具體過(guò)程為:
對(duì)步驟5中得到的數(shù)據(jù)進(jìn)行TF-IDF權(quán)重計(jì)算,將每篇文本中的詞項(xiàng)按照權(quán)重的大小進(jìn)行排序,采用選擇關(guān)鍵詞項(xiàng)的方法對(duì)文本進(jìn)行降維處理,選擇每篇文本的前60%的詞項(xiàng)來(lái)表示該篇文本,作為該篇文本的關(guān)鍵詞項(xiàng)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710777064.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:散熱器型材加工裝置
- 下一篇:一種沖壓操作系統(tǒng)
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶(hù)端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶(hù)任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 紙木結(jié)合箱結(jié)合件
- 結(jié)合結(jié)構(gòu)及結(jié)合方法
- 結(jié)合結(jié)構(gòu)及結(jié)合方法
- 結(jié)合分離裝置、結(jié)合分離系統(tǒng)及結(jié)合分離方法
- 結(jié)合裝置和結(jié)合方法
- 結(jié)合方法和結(jié)合結(jié)構(gòu)
- 晶片結(jié)合裝置和包括晶片結(jié)合裝置的晶片結(jié)合系統(tǒng)
- 結(jié)合設(shè)備及襯底結(jié)合方法
- 結(jié)合LIGHT的抗原結(jié)合分子
- 電線(xiàn)結(jié)合方法和結(jié)合電線(xiàn)





