日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于MapReduce框架下的海量文本快速聚類的方法有效

專利信息
申請號: 202011051536.8 申請日: 2020-09-29
公開(公告)號: CN112463958B 公開(公告)日: 2022-07-15
發明(設計)人: 程永龍;李美晶 申請(專利權)人: 上海海事大學
主分類號: G06F16/35 分類號: G06F16/35;G06F16/33;G06F40/284;G06K9/62;G06Q40/06
代理公司: 上海互順專利代理事務所(普通合伙) 31332 代理人: 成秋麗
地址: 201306 上海市*** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 mapreduce 框架 海量 文本 快速 方法
【權利要求書】:

1.基于MapReduce框架下的海量文本快速聚類的方法,其特征在于,包含以下步驟:

S1、對海量文本數據在Hadoop分布式環境下進行預處理,對每個文本進行分詞,轉化成一組分詞串;

S2、在Hadoop分布式環境下利用TF-IDF方法對文本的分詞串進行特征提取,每條文本形成可供計算機識別的數字向量;

S3、將所述步驟S2得到的所述文本數字向量,在Hadoop分布式環境下利用改進的快速初始化K均值聚類算法得到K個初始的質心向量;

S4、將所述步驟S2中所述文本數字向量與所述步驟S3中所述文本質心向量在Hadoop分布式環境下進行聚類,得到聚類結果;

所述步驟S1進一步包含以下步驟:

S1.1、將待預處理文本作為輸入文件,對輸入文件每一行做一遍映射歸約;所述映射歸約過程如下:

(1)將所述輸入文件按行拆分成多個小文件,該小文件中每一行由文本號和對應內容組成,為每一個小文件分配一個映射任務;

(2)在映射階段,將每行內容進行半角向全角轉化、大寫數字向小寫數字轉化、大寫字母向小寫字母轉化、去除文本中的表情符號,用jieba分詞工具進行分詞處理,jieba分詞是一種中文分詞工具,將得到的分詞串去除停用詞,輸出一個鍵值對,鍵是該文本號,值是去除停用詞后的分詞串;

(3)在歸約階段,直接輸出鍵值對,得到每一行由每篇文本的分詞串組成的分詞串文件;

所述步驟S2進一步包含以下步驟:

S2.1、將分詞串文件作為輸入文件,對輸入文件每一行做一遍映射歸約;所述映射歸約過程如下:

(1)將所述輸入文件按行拆分成多個小文件,該小文件中每一行由文本號和對應分詞串組成,為每一個小文件分配一個映射任務;

(2)在映射階段,將每行分詞串去除重復分詞后的分詞取集合,輸出一個鍵值對,鍵是該文本號,值是取集合后的分詞串;

(3)在歸約階段,將每行分詞串合并在一起,取集合組成詞袋,輸出一個鍵值對,鍵為1,值為分詞串集合組成的詞袋,得到一個詞袋文件;

S2.2、將所述步驟S1.1中分詞串文件與S2.1中的詞袋文件,利用TF-IDF進行特征提取;

TF-IDF特征提取計算公式如下:

式中,Nw是在一條文本中分詞w出現的次數,N是該條文本中分詞串中總分詞數,TFw是分詞w的詞頻;

其中,Y是文本的總數,Yw是包含分詞w的文本個數,IDFw是分詞w的逆文本頻率;

(TF-IDF)w=TFw*IDFw

其中,(TF-IDF)w是分詞w的詞頻-逆文本頻率指數;

所述步驟S3文本數字向量為S2.2中分詞串的詞頻-逆文本頻率指數構成;所述步驟S3進一步包含以下步驟:

S3.1將所述步驟S2得到的所述文本數字向量中隨機抽取一部分樣本向量,該樣本向量數量為指定K值的三到五倍,其他海量文本為剩余其他向量;

S3.2將所述S3.1所述樣本向量中任意選取一向量,命名為C1,計算C1與樣本向量中所有剩余樣本向量的余弦相似度;

余弦相似度計算公式如下:

式中,x1與x2是兩個需要計算的向量,sim(x1,x2)是余弦相似度;

S3.3由所述步驟S3.2的余弦相似度計算結果,找到與所述C1余弦相似度較大的向量,命名Ca,計算Ca與其他所有剩余樣本向量的余弦相似度,找到與所述Ca余弦相似度較大的向量,命名Cmax,與較小的向量,命名Cmin;計算所述Ca與所述Cmin的余弦相似度sim(Ca,Cmin)值對應的余弦角度θ;

余弦角度θ計算如下:

sim(Ca,Cmin)=cosθ

θ=arccos(sim(Ca,Cmin))

S3.4將步驟S3.3所述余弦角度θ除以指定K值,得到角度間隔θ1,得到如下角度區間劃分:

[0,θ1],[θ1,2θ1],[2θ1,3θ1],.......,[(k-1)θ1,kθ1],共K個區間;

S3.5選取步驟S3.3所述Cmax向量作為參照向量,分別選取步驟S3.4所述區間進行如下計算:

(1)首先選定首個區間[0,θ1],逐個計算Cmax與所述其他所有剩余樣本向量的余弦相似度,直到找到一個向量,命名C1,滿足:cos(0)sim(Cmax,C1)=cos(θ1),記下向量C1,停止此輪計算;

(2)依次選定區間[θ1,2θ1],逐個計算Cmax與所述其他所有剩余樣本向量的余弦相似度,直到找到一個向量,命名C2,滿足:cos(θ1)sim(Cmax,C2)=cos(2θ1),記下向量C2,停止此輪計算;

(3)以此類推進行第K次,選定區間[(k-1)θ1,kθ1],逐個計算Cmax與所述其他剩余樣本向量的余弦相似度,直到找到一個向量,命名Ck,滿足:cos((k-1)θ1)sim(Cmax,Ck)=cos(kθ1),記下向量Ck,停止此輪計算;

S3.6根據所述步驟S3.5可得到一組向量{C1,C2,.....,Ck},記為初始質心向量;若出現質心向量個數小于K,則缺少向量從所述步驟S3.1所述剩余其他向量隨機選取;

所述步驟S4中進一步包含以下步驟:

S4.1將所述步驟S2中所述文本數字向量作為輸入文件,所述步驟S3中所述文本質心向量作為質心向量文件,質心向量文件每行由質心向量序號與質心向量組成;對輸入文件的每一行作第一遍映射歸約;所述第一遍映射歸約過程如下:

(1)將所述輸入文件按行拆分成多個小文件,該小文件中每一行為一個樣本的數字向量,為每一個小文件分配一個映射任務;

(2)在映射階段,將小文件中每一行向量與所述質心向量文件中每個質心向量進行余弦相似度計算,找出所計算出的余弦相似度最大值對應的向量,作為此行向量的類質心向量,輸出如下的鍵值對:該類質心向量的序號作為鍵,此行向量作為值;

(3)在歸約階段,將鍵相同的數字向量進行相加求和并除以它們的個數,得到它們的平均值,輸出對應的鍵和所得的平均值;

(4)將歸約階段輸出的內容作為新的質心向量文件,將之前質心向量文件作為舊的質心向量文件,比較新舊兩個質心向量文件是否近似相等,比較方法為:將兩個文件質心向量序號相同的質心向量進行相減,將相減得到的誤差向量,該誤差向量中絕對值最大的向量值作為該誤差向量的誤差值,在所有序號相同向量相減得到的誤差向量的誤差值中,找出最大的誤差值作為質心向量的總誤差W,將W與預先設定的閾值Y比較大小,若W小于閾值Y,則聚類結束,得到最終質心向量文件;若W大于Y,則進行下一遍映射歸約直至W小于閾值Y為止,在每一遍映射歸約中,將上一遍產生的新的質心向量文件作為此次映射歸約的質心向量文件,文本數字向量依舊作為輸入文件;

S4.2將所述步驟S4.1聚類最終得到質心向量文件作為質心向量文件,所述步驟S4.1中所述文本數字向量文件作為輸入文件,進行一遍映射歸約,過程如下:

(1)將所述輸入文件按行拆分成多個小文件,該小文件中每一行為一個樣本的數字向量,為每一個小文件分配一個映射任務;

(2)在映射階段,將小文件中每一行向量與所述質心向量文件中每個質心向量進行余弦相似度計算,找出所計算出的余弦相似度最大值對應的向量,作為此行向量的類質心向量,輸出這樣的鍵值對:該類質心向量的序號作為鍵,此行向量作為值;

(3)在歸約階段,直接輸出鍵值對,鍵則為每個文本向量數據的簇標號,值為行向量;

所述步驟S4.1中聚類方法包含以下步驟:

S4.1-1、所述步驟S4.1所述總誤差W大于所述閾值Y時,進行下一遍映射歸約,所述步驟S4.1輸入文件依然作為輸入文件,所述步驟S4.1新的質心向量文件作為質心向量文件,第二遍映射歸約過程如下:

(1)將所述輸入文件按行拆分成多個小文件,該小文件中每一行為一個樣本的數字向量,為每一個小文件分配一個映射任務;

(2)在映射階段,將小文件中每一行向量與所述質心向量文件中每個質心向量進行余弦相似度計算,找出所計算出的余弦相似度最大值對應的向量,作為此行向量的類質心向量,輸出這樣的鍵值對:該類質心向量的序號作為鍵,此行向量作為值;

(3)在歸約階段,將鍵相同的數字向量進行相加求和并除以它們的個數,得到它們的平均值,輸出對應的鍵和所求的平均值;

(4)將歸約階段輸出的內容作為新的質心向量文件,將之前質心向量文件作為舊的質心向量文件,比較新舊兩個質心向量文件是否近似相等,比較方法為:將兩個文件質心向量序號相同的質心向量進行相減,將相減得到的誤差向量,該誤差向量中絕對值最大的向量值作為該誤差向量的誤差值,在所有序號相同向量相減得到的誤差向量的誤差值中,找出最大的誤差值作為質心向量的總誤差W,將W與預先設定的閾值Y比較大小,若W小于閾值Y,則聚類結束,得到最終質心向量文件;若W大于Y,則再次進行下一遍映射歸約,直至W小于閾值Y為止。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海海事大學,未經上海海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011051536.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩午夜三级| 国产亚洲精品久久久久秋霞| 99re6国产露脸精品视频网站| 少妇bbwbbwbbw高潮| 亚洲欧美国产一区二区三区 | 亚洲乱小说| 国产精品乱综合在线| 亚洲精品日韩在线| 日本xxxx护士高潮hd| 国产无套精品久久久久久| 国产精品一区在线观看你懂的 | 国产麻豆精品一区二区| 在线视频不卡一区| 久久艹国产精品| 午夜毛片在线| 在线观看国产91| 久久国产精品网站| 日韩欧美精品一区二区三区经典| 一区二区在线精品| 欧美精品一区久久| 国产精品欧美日韩在线| 蜜臀久久99精品久久一区二区| 欧美日韩国产精品一区二区三区| 国产精品一区二区在线观看| 日韩精品一区二区三区中文字幕| 欧美高清性xxxx| 国产精品日韩一区二区三区| 一区二区三区免费高清视频| 69xx国产| 欧美日韩国产一区在线| 欧美3p激情一区二区三区猛视频 | 欧美一区二区三区四区在线观看| 色午夜影院| 午夜看片在线| 国产美女三级无套内谢| 国产精品视频久久久久久| 91一区二区三区久久国产乱| 欧美国产三区| 国产色99| 日本一二三区视频在线| 国产在线拍揄自揄拍| 国产日韩一区在线| 精品一区在线观看视频| 91丝袜诱惑| 欧美极品少妇| 国产精品久久二区| 亚洲国产美女精品久久久久∴| 国产精品一区二区中文字幕| www.日本一区| 亚洲精品一区,精品二区| 99国产精品久久久久99打野战| 97欧美精品| 狠狠躁日日躁狂躁夜夜躁| 少妇bbwbbwbbw高潮| 精品福利一区| 色婷婷综合久久久久中文| 99久久婷婷国产精品综合| 高清国产一区二区| 亚洲欧美国产日韩综合| 丰满少妇在线播放bd日韩电影| 国产人澡人澡澡澡人碰视| 国产日韩欧美精品一区二区| 国产精品日韩一区二区| 国产欧美视频一区二区| 亚洲少妇中文字幕| 国产精品国外精品| 国产精品视频二区三区| 欧美精品八区| 少妇久久免费视频| 日本高清二区| 日本高清不卡二区| 99国产午夜精品一区二区天美| 麻豆精品一区二区三区在线观看| 国产视频二区在线观看| 欧美一区免费| 日韩欧美中文字幕精品| 十八无遮挡| 日韩精品久久久久久久的张开腿让| 日韩午夜毛片| 欧美老肥婆性猛交视频| 玖玖爱国产精品| 美女张开腿黄网站免费| 丰满少妇高潮惨叫久久久| 91黄色免费看| 国产欧美日韩精品一区二区图片| 亚洲精品www久久久| 久久99精品久久久大学生| 国产精一区二区三区| 久久91精品国产91久久久| 三级视频一区| 亚洲精品suv精品一区二区| 午夜剧场a级片| 亚洲区日韩| 久久久精品欧美一区二区免费| 精品特级毛片| 99国产精品一区二区| 毛片免费看看| 欧美日韩一区二区三区四区五区 | 日韩中文字幕一区二区在线视频 | 午夜三级大片| 日本中文字幕一区| 欧美xxxxhdvideos| 99国产精品久久久久老师| 国产一级片大全| 99久久夜色精品国产网站| 精品久久香蕉国产线看观看gif | 国产精品欧美久久久久一区二区| 在线观看黄色91| 亚洲欧美日韩国产综合精品二区| 国产乱淫精品一区二区三区毛片| 国产一区二区片| 欧美高清极品videossex| 国产高潮国产高潮久久久91| 狠狠色噜噜狠狠狠狠| 国产精品欧美一区二区三区| 国产一区二区午夜| 国产精品日韩精品欧美精品 | 人人澡超碰碰97碰碰碰| 欧美一区二区精品久久911| 国产伦理一区| 欧美精品日韩| 99久久精品免费看国产免费粉嫩| 国模精品免费看久久久| 欧美日韩三区| 69xx国产| 99精品黄色| 日本一区二区三区中文字幕| 国产精品国产一区二区三区四区| 国产精品96久久久久久久| 美国三级日本三级久久99| 久久一区二区三区视频| 国模少妇一区二区三区| 欧美日韩国产一二| 九九久久国产精品| 午夜一二区| 国产日韩麻豆| 国产九九影院| 97国产精品久久| 国产精品一二三区免费| 欧美大成色www永久网站婷| 日韩一区二区中文字幕| 国产精华一区二区精华| 国产欧美亚洲一区二区| 国产午夜精品一区二区三区欧美| 国产91九色在线播放| 国产淫片免费看| 亚洲国产欧美一区二区三区丁香婷| 免费观看黄色毛片| 四虎国产精品永久在线| 亚洲国产美女精品久久久久∴| 欧美一区二三区| 欧美在线一级va免费观看| 亚洲神马久久| 欧洲国产一区| 午夜精品在线播放| 欧美亚洲视频二区| 91久久精品国产91久久性色tv| 电影91久久久| 欧美一区亚洲一区| 亚洲一二三在线| 91一区在线| 蜜臀久久99静品久久久久久| 亚洲欧美国产精品一区二区| 96国产精品视频| 国产一区二区极品| 亚洲精品乱码久久久久久写真| 午夜国产一区二区三区四区| 日韩欧美精品一区二区| 精品国产91久久久| 蜜臀久久99精品久久一区二区| 99国产精品久久久久老师| 久久久国产精品一区| 99国产精品久久久久老师| 日本精品三区| 91麻豆精品国产91久久久更新资源速度超快 | 欧美在线一区二区视频| 91久久国产视频| 国产偷国产偷亚洲清高| 国产精品视频久久久久| 亚洲精品www久久久久久广东| 国产精品影音先锋| 国产精品欧美久久| 少妇厨房与子伦在线观看| 精品一区在线观看视频| 二区三区视频| а√天堂8资源中文在线| 国产视频一区二区在线| 久久一级精品视频| 国产亚洲精品久久19p| 国产精品一二三区免费| 国产精品一二三在线观看| 国产性猛交xx乱| 欧美一区二区三区激情| 久久精品爱爱视频| 91偷自产一区二区三区精品| 一区二区欧美视频| 天干天干天啪啪夜爽爽99| 四虎精品寂寞少妇在线观看| 88国产精品视频一区二区三区| 欧美日韩中文不卡| 国产欧美一区二区三区不卡高清| 精品国产1区2区3区| 丰满岳妇伦4在线观看| 免费观看xxxx9999片| 国产精品一品二区三区四区五区| 久久精品入口九色| 国产精品久久99| 狠狠色狠狠色综合久久一| 狠狠色狠狠色很很综合很久久| 欧美一区二区久久久| 在线观看国产91| 欧美一区二区三区日本| 日韩a一级欧美一级在线播放| xxxx在线视频| 国产日韩欧美亚洲| 国产视频在线一区二区| 久久久精品欧美一区二区免费| 国产99久久九九精品免费| 欧美日韩一级在线观看| 久久久精品中文| 综合色婷婷一区二区亚洲欧美国产| 午夜国内精品a一区二区桃色| 李采潭伦理bd播放| 91国产一区二区| 日韩精品一二区| 精品福利一区二区| 99久精品视频| 国产精品香蕉在线的人| 亚洲精品少妇一区二区| 午夜剧场a级片| 国产精品久久久久久久久久不蜜月| 天堂av一区二区| 国产偷窥片| 国产精品5区| 欧美乱大交xxxxx胶衣| 91精品中综合久久久婷婷| 国产乱子伦农村xxxx| 国产大学生呻吟对白精彩在线| 97国产婷婷综合在线视频,| 99国产精品一区| 国产午夜精品理论片| 免费a级毛片18以上观看精品| 欧美性xxxxx极品少妇| 麻豆天堂网| 91夜夜夜| 亚洲制服丝袜在线|