日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 201710777064.6 申請(qǐng)日: 2017-09-01
公開(kāi)(公告)號(hào): CN107590218B 公開(kāi)(公告)日: 2020-11-06
發(fā)明(設(shè)計(jì))人: 蔡晨曉;畢濤;徐楊;卜京;姚娟;殷明慧 申請(qǐng)(專(zhuān)利權(quán))人: 南京理工大學(xué)
主分類(lèi)號(hào): G06F16/182 分類(lèi)號(hào): G06F16/182;G06F16/35;G06F40/289;G06F40/30;G06K9/62
代理公司: 南京理工大學(xué)專(zhuān)利中心 32203 代理人: 陳鵬
地址: 210094 *** 國(guó)省代碼: 江蘇;32
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 基于 spark 特征 結(jié)合 中文 文本 高效 方法
【權(quán)利要求書(shū)】:

1.一種基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法,其特征在于,包括以下步驟:

步驟1,在物理服務(wù)器上搭建Spark平臺(tái)以及HDFS文件系統(tǒng);

步驟2,將原始文本數(shù)據(jù)集上傳到HDFS文件系統(tǒng)中,利用ICTCLAS漢語(yǔ)分詞系統(tǒng)和Hadoop并行計(jì)算平臺(tái)將原始文本數(shù)據(jù)集進(jìn)行并行分詞處理,并重新上傳至HDFS文件系統(tǒng)中;

步驟3,Spark平臺(tái)從HDFS文件系統(tǒng)中讀入分好詞后的數(shù)據(jù)集,將其轉(zhuǎn)化為彈性分布式數(shù)據(jù)集RDD,并根據(jù)用戶(hù)程序中設(shè)定的RDD中分區(qū)的數(shù)目來(lái)啟動(dòng)一定數(shù)目的并發(fā)線(xiàn)程讀取數(shù)據(jù),并將其存儲(chǔ)在系統(tǒng)內(nèi)存中;

步驟4,按照RDD中分區(qū)之間的相互依賴(lài)關(guān)系,Spark作業(yè)調(diào)度系統(tǒng)將寫(xiě)好的應(yīng)用程序拆分為不同的任務(wù)組,然后并行運(yùn)行各個(gè)任務(wù)組中的任務(wù);

步驟5,對(duì)讀取到的數(shù)據(jù)進(jìn)行預(yù)處理,將步驟3中緩存在RDD中的數(shù)據(jù)轉(zhuǎn)化為純文本的形式,過(guò)濾掉停用詞;

步驟6,對(duì)預(yù)處理后的文本進(jìn)行降維處理,挑選出對(duì)文本表示貢獻(xiàn)最大的詞項(xiàng);

步驟7,將步驟6中得到的數(shù)據(jù)利用文本深度表示模型Word2Vec計(jì)算出每個(gè)詞項(xiàng)的詞向量,得到文本的語(yǔ)義相似度;計(jì)算文本語(yǔ)義相似度的具體過(guò)程為:

對(duì)于步驟6中降維處理后得到的每篇文本中的詞項(xiàng),利用文本深度表示模型Word2Vec得到每個(gè)詞項(xiàng)的詞向量,進(jìn)而計(jì)算詞項(xiàng)與詞項(xiàng)之間的語(yǔ)義相似度;得到詞項(xiàng)之間的語(yǔ)義相似度之后,計(jì)算關(guān)鍵詞項(xiàng)集合的語(yǔ)義相似度,具體計(jì)算公式由式(1)給出:

在關(guān)鍵詞項(xiàng)集合的語(yǔ)義相似度之后,用關(guān)鍵詞項(xiàng)集合的語(yǔ)義相似度來(lái)表示文本之間的語(yǔ)義相似度,其中sim(w1k,w2l)表示兩個(gè)關(guān)鍵詞項(xiàng)w1k,w2l之間的語(yǔ)義相似度,m是第一篇文本的關(guān)鍵詞項(xiàng)數(shù),n是第二篇文本的關(guān)鍵詞項(xiàng)數(shù),V1,V2表示任意兩篇文本的關(guān)鍵詞項(xiàng)集合,其定義由式(2)給出:

步驟8,將步驟6中得到的數(shù)據(jù)按照TF-IDF計(jì)算公式重新計(jì)算每個(gè)詞項(xiàng)在各自文本中所占的權(quán)重,然后將每篇文本的詞項(xiàng)的TF-IDF權(quán)重按詞項(xiàng)順序組合成一個(gè)向量來(lái)表示文本,計(jì)算得到所有向量之間的余弦相似度,以此來(lái)表示文本之間的余弦相似度Cosim(V1,V2);

步驟9,將步驟7得到的文本語(yǔ)義相似度與步驟8得到的文本余弦相似度進(jìn)行結(jié)合,計(jì)算得到最終的文本相似度;計(jì)算最終文本相似度的具體過(guò)程由式(3)給出:

Textsim(V1,V2)=wf*Vecsim(V1,V2)+(1-wf)*Cosim(V1,V2) (3)

其中wf為語(yǔ)義加權(quán)因子,具體的計(jì)算過(guò)程由式(4)給出:

其中,TFIDF(w1k)表示關(guān)鍵詞w1k在對(duì)應(yīng)文本中的TF-IDF權(quán)值;式(4)中的集合Λ1和Λ2的定義由式(5)給出:

其中,μ為用戶(hù)設(shè)定的相似度閾值;

步驟10,利用最大距離法對(duì)文本進(jìn)行聚類(lèi),計(jì)算得到最終的聚類(lèi)結(jié)果。

2.根據(jù)權(quán)利要求1所述的基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法,其特征在于,步驟5中對(duì)所述RDD數(shù)據(jù)進(jìn)行預(yù)處理的具體過(guò)程為:

Spark平臺(tái)的各個(gè)工作節(jié)點(diǎn)從字符串類(lèi)型的RDD中讀取數(shù)據(jù)進(jìn)行操作,首先對(duì)讀取到的數(shù)據(jù)進(jìn)行篩選,從中篩選出名詞、動(dòng)詞以及形容詞;其次,將所有的人名、地名以及機(jī)構(gòu)名進(jìn)行統(tǒng)一的替換;最后按照停用詞字典進(jìn)行Filter過(guò)濾操作,過(guò)濾掉停用詞。

3.根據(jù)權(quán)利要求1所述的基于Spark的多特征結(jié)合中文文本高效聚類(lèi)方法,其特征在于,步驟6中對(duì)文本進(jìn)行降維處理的具體過(guò)程為:

對(duì)步驟5中得到的數(shù)據(jù)進(jìn)行TF-IDF權(quán)重計(jì)算,將每篇文本中的詞項(xiàng)按照權(quán)重的大小進(jìn)行排序,采用選擇關(guān)鍵詞項(xiàng)的方法對(duì)文本進(jìn)行降維處理,選擇每篇文本的前60%的詞項(xiàng)來(lái)表示該篇文本,作為該篇文本的關(guān)鍵詞項(xiàng)。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710777064.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖;

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線(xiàn)咨詢(xún)

周一至周五 9:00-18:00

咨詢(xún)?cè)诰€(xiàn)客服咨詢(xún)?cè)诰€(xiàn)客服
tel code back_top
主站蜘蛛池模板: 国产色午夜婷婷一区二区三区| 国产在线精品区| 国产在线精品一区二区在线播放| 国产精品剧情一区二区三区| 国产资源一区二区三区| 国产真实一区二区三区| 91热精品| 粉嫩久久久久久久极品| 久久久精品视频在线| 亚洲欧美一二三| 亚洲精品欧美精品日韩精品| 国产乱一区二区三区视频| 亚洲国产精品二区| 日日噜噜夜夜狠狠| 亚洲乱亚洲乱妇50p| 免费午夜片| 精品999久久久| 国产九九影院| 久久久久久久国产| 亚洲欧美一卡二卡| 国产精品综合在线观看| 最新av中文字幕| 亚洲码在线| 日本精品一区二区三区视频| 亚洲精品久久久久一区二区| 国产日本欧美一区二区三区| 久久午夜鲁丝片| 亚洲精品卡一卡二| 国产一区中文字幕在线观看| 国产精品日韩一区二区| 国产88av| 日韩精品免费一区二区三区| 国产精品亚洲第一区| 国产在线一区不卡| 性色av香蕉一区二区| 999国产精品999久久久久久| 日韩国产精品久久| 456亚洲精品| 欧美一区二三区人人喊爽| 欧美日韩国产色综合一二三四| 91理论片午午伦夜理片久久 | 99久久精品免费视频| 国产精品二区一区二区aⅴ| 99久久久国产精品免费无卡顿| 99精品一区二区| 欧美大片一区二区三区| 免费精品99久久国产综合精品应用| 国产一区二区三区乱码| 999久久久国产| 久久久久久久久亚洲精品| 97欧美精品| 精品99免费视频| 国产人成看黄久久久久久久久| 欧美一区二区在线不卡| 日韩国产精品一区二区| 538国产精品一区二区在线| 狠狠色丁香久久综合频道| 国产精品无码专区在线观看| 精品国产一区二区三区四区四 | 久久99中文字幕| 久久99久国产精品黄毛片入口| 亚洲欧美另类久久久精品2019| 91丝袜诱惑| 亚洲国产精品一区二区久久,亚洲午夜| a级片一区| 猛男大粗猛爽h男人味| 久久一区二区精品| 欧美网站一区二区三区| 欧美极品少妇videossex| 午夜av资源| 国产片91| 精品久久久久久中文字幕大豆网| 欧美激情精品久久久久久免费| 国产69精品福利视频| 欧美精品综合视频| 91久久香蕉国产日韩欧美9色| 国产精品色在线网站| 亚洲欧洲一二三区| 亚洲精品一区,精品二区| 欧美亚洲视频二区| 欧洲在线一区二区| 激情欧美日韩| 久久久精品观看| 欧美综合国产精品久久丁香| 久久精品综合视频| 亚洲精品国产久| 国91精品久久久久9999不卡| 久久99精| 国产高清不卡一区| 国模少妇一区二区三区| 欧美精品第1页| 亚洲欧洲一二三区| 国产精品中文字幕一区二区三区| 国产视频二区| 26uuu亚洲国产精品| 91精品视频在线观看免费| 久久久精品二区| www.久久精品视频| 久久艹国产精品| 国产精品一区二区6| 国产精品一区二区毛茸茸| 国产伦精品一区二区三区免费迷| 日韩国产不卡| 19videosex性欧美69| 亚洲国产另类久久久精品性| 99精品在免费线偷拍| 99久久婷婷国产综合精品电影| 久久国产麻豆| 国产精品一区在线播放| 国产欧美亚洲一区二区| 欧美二区精品| 欧美在线免费观看一区| 狠狠色狠狠色合久久伊人| 欧美日韩一区电影| 国产高潮国产高潮久久久91| 99久久国产综合精品麻豆| 欧美日韩综合一区| 国产精品一级在线| 国产一区二区在| 欧美日韩一卡二卡| 李采潭伦理bd播放| 免费a级毛片18以上观看精品| 一区二区在线视频免费观看| 最新日韩一区| 欧美三区二区一区| 国产午夜精品一区二区三区四区| 毛片免费看看| 亚洲制服丝袜在线| 国产91热爆ts人妖系列| 国产精品天堂| 色乱码一区二区三在线看| 亚洲精品国产一区二| 国产亚洲精品久久久久动| 午夜特级片| 在线观看v国产乱人精品一区二区| 国产一区二区中文字幕| 欧美精品五区| 欧美乱大交xxxxx| 狠狠躁夜夜躁| 亚洲第一天堂无码专区| 欧美一区二区精品久久911| 国产一区二区电影| 99爱精品在线| 日日夜夜亚洲精品| 久久久精品欧美一区二区免费| 国产麻豆91欧美一区二区| 蜜臀久久99静品久久久久久| 日本一区二区三区中文字幕| 国产二区三区视频| 欧美激情图片一区二区| 国产精品日本一区二区不卡视频 | 国产精品电影免费观看| 国产欧美亚洲一区二区| 国产极品美女高潮无套久久久| 午夜天堂在线| 日韩国产精品久久| 97久久国产亚洲精品超碰热| 国产清纯白嫩初高生在线播放性色| 国产欧美日韩综合精品一| 日本一区二区三区在线看| 99久久久久久国产精品| 亚洲精品国产综合| 婷婷午夜影院| 国产精品v欧美精品v日韩| 欧美一区二区伦理片| 欧美亚洲精品suv一区| 99精品视频一区| 日韩欧美中文字幕精品| 午夜一区二区三区在线观看| 国产精品18久久久久久白浆动漫| 久久精品爱爱视频| 亚洲一区中文字幕| 日韩久久精品一区二区| 91视频国产一区| 丰满少妇高潮惨叫久久久一| 激情久久一区二区| 日韩精品福利片午夜免费观看| 香蕉av一区| 91精品色| 日韩精品一区二区三区四区在线观看| 国产在线精品一区二区在线播放| 国产精品v欧美精品v日韩| 99精品久久99久久久久| 国产麻豆精品久久| 欧美国产在线看 | 91久久国产露脸精品国产| 精品国产乱码久久久久久久久| 精品国产区| 91丝袜国产在线播放| 九一国产精品| 欧美一区二区精品久久| 久久精品国产一区二区三区不卡| 午夜av网址| 国产午夜精品av一区二区麻豆| 91精品第一页| 国产69精品久久久久777| 久久天堂国产香蕉三区| 精品福利一区| 国产农村妇女精品一二区| 国产人澡人澡澡澡人碰视| 国产精品视频久久久久久久| 亚洲va国产2019| 亚洲福利视频二区| 激情久久影院| 欧美一区二区久久| 97午夜视频| 久久久久国产一区二区三区不卡| 精品无人国产偷自产在线| 99精品国产免费久久| 国产精品suv一区二区6| 少妇自拍一区| 狠狠躁夜夜躁2020| 国产精品女人精品久久久天天| 日韩a一级欧美一级在线播放| 日韩女女同一区二区三区| 一区二区在线视频免费观看| 精品美女一区二区三区| 国产欧美日韩va另类在线播放| 国产性猛交96| 一区二区久久精品| 国产精品影音先锋| 日本五十熟hd丰满| 亚洲欧洲一区二区| 在线视频国产一区二区| 日本一区二区电影在线观看| 国产aⅴ精品久久久久久| 精品videossexfreeohdbbw| 狠狠色丁香久久婷婷综合_中| 蜜臀久久久久久999| 午夜大片男女免费观看爽爽爽尤物| 91免费视频国产| 国产区图片区一区二区三区| 亚洲国产精品国自产拍久久| 日本精品一二三区| 91精品一二区| 欧美精品在线观看视频| 国产精品9区| 999亚洲国产精| 李采潭无删减版大尺度| 少妇高潮ⅴideosex| 国产精品久久久久久久久久久不卡| 91亚洲国产在人线播放午夜| 久久精品视频偷拍| 国产伦精品一区二区三区无广告| 久久99久久99精品蜜柚传媒| 91一区二区三区视频|