[發(fā)明專利]基于Spark平臺(tái)采用兩次評(píng)價(jià)的加權(quán)選擇集成三支聚類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710548072.3 | 申請(qǐng)日: | 2017-07-06 |
| 公開(公告)號(hào): | CN107480694B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計(jì))人: | 于洪;陳云;胡峰;王國胤;胡軍 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 重慶市恒信知識(shí)產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark 平臺(tái) 采用 兩次 評(píng)價(jià) 加權(quán) 選擇 集成 三支聚類 方法 | ||
1.一種基于Spark平臺(tái)采用兩次評(píng)價(jià)的物流配送數(shù)據(jù)聚類方法,其特征在于,包括以下步驟:
步驟1,對(duì)物流配送大數(shù)據(jù)集進(jìn)行分區(qū)管理并生成對(duì)應(yīng)的彈性分布式數(shù)據(jù)集RDD;
步驟2,使用基于Spark的K-Means聚類算法同時(shí)對(duì)每個(gè)分區(qū)的數(shù)據(jù)進(jìn)行聚類,生成多個(gè)不同的聚類成員;
步驟3,通過兩次評(píng)價(jià),構(gòu)造聚類成員新的評(píng)價(jià)函數(shù)以及加權(quán)選擇策略,對(duì)聚類成員進(jìn)行選擇,刪除聚類效果不佳的聚類結(jié)果,構(gòu)成新的聚類成員;
步驟4,將聚類成員進(jìn)行集成,構(gòu)造一個(gè)加權(quán)的投票矩陣,根據(jù)三支決策規(guī)則進(jìn)行聚類劃分,得到最終的三支聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于Spark平臺(tái)采用兩次評(píng)價(jià)的物流配送數(shù)據(jù)聚類方法,其特征在于,所述步驟1對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分區(qū)管理具體包括步驟:首先將大規(guī)模數(shù)據(jù)集存儲(chǔ)在分布式文件系統(tǒng)HDFS下;然后初始化環(huán)境變量SparkContext,再通過函數(shù)textFile()將數(shù)據(jù)集轉(zhuǎn)換成彈性分布式數(shù)據(jù)集RDD形式,創(chuàng)建分區(qū)個(gè)數(shù)numPratitions,用函數(shù)getPartition(key:Any)對(duì)輸入的key做計(jì)算,返回key的分區(qū)ID。
3.根據(jù)權(quán)利要求1所述的基于Spark平臺(tái)采用兩次評(píng)價(jià)的物流配送數(shù)據(jù)聚類方法,其特征在于,所述步驟2使用基于Spark的K-Means聚類算法對(duì)每個(gè)分區(qū)的數(shù)據(jù)進(jìn)行聚類,生成多個(gè)不同的聚類成員具體包括步驟:
通過設(shè)置類簇?cái)?shù)目k以及不同的迭代次數(shù),將類簇個(gè)數(shù)k映射到每個(gè)分區(qū),運(yùn)行算法,輸出鍵值對(duì)(id,x),其中id標(biāo)記了數(shù)據(jù)對(duì)象x的簇號(hào),然后合并分區(qū)得到聚類結(jié)果,得到m個(gè)不同的聚類成員。
4.根據(jù)權(quán)利要求3所述的基于Spark平臺(tái)采用兩次評(píng)價(jià)的物流配送數(shù)據(jù)聚類方法,其特征在于,所述K-Means聚類算法具體包括:
Step1:對(duì)輸入數(shù)據(jù)集進(jìn)行分區(qū),得到K個(gè)分區(qū)的RDD1;
Step2:在前k個(gè)分區(qū)中,每個(gè)分區(qū)隨機(jī)選擇一個(gè)點(diǎn)作為初始聚類中心,存儲(chǔ)在RDD2中;
Step3:根據(jù)歐式距離公式計(jì)算每個(gè)數(shù)據(jù)對(duì)象與聚類中心的距離,并以鍵值對(duì)(xi,e)的形式存儲(chǔ)在RDD3中;
Step4:對(duì)RDD3進(jìn)行Reduce操作,對(duì)數(shù)據(jù)對(duì)象進(jìn)行類簇劃分,并以鍵值對(duì)(id,xi)的形式存儲(chǔ)在RDD4中,id記錄每個(gè)數(shù)據(jù)對(duì)象的簇號(hào);
Step5:在第RDD5中計(jì)算每個(gè)類簇的平均值,得到新的聚類中心點(diǎn),其中RDD1-RDD5分別表示第一彈性分布式數(shù)據(jù)集-第五彈性分布式數(shù)據(jù)集;
Step6:循環(huán)迭代Step3至Step5,直到達(dá)到最大迭代次數(shù),輸出聚類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710548072.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品





