[發(fā)明專利]基于Spark平臺采用兩次評價的加權(quán)選擇集成三支聚類方法有效
| 申請?zhí)枺?/td> | 201710548072.3 | 申請日: | 2017-07-06 |
| 公開(公告)號: | CN107480694B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計)人: | 于洪;陳云;胡峰;王國胤;胡軍 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 重慶市恒信知識產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 spark 平臺 采用 兩次 評價 加權(quán) 選擇 集成 三支聚類 方法 | ||
本發(fā)明請求保護(hù)一種基于Spark平臺采用兩次評價的加權(quán)選擇集成三支聚類方法,主要包括如下步驟:步驟1,對大數(shù)據(jù)集進(jìn)行分區(qū)和管理并生成對應(yīng)的彈性分布式數(shù)據(jù)集(RDD);步驟2,使用基于Spark的K?Means聚類算法對每個分區(qū)數(shù)據(jù)進(jìn)行聚類,生成多個不同的聚類成員;步驟3,通過兩次評價,構(gòu)造新的評價函數(shù)以及加權(quán)選擇策略,對聚類成員進(jìn)行選擇,刪除聚類效果不佳的聚類結(jié)果,構(gòu)成新的聚類成員;步驟4,將聚類成員進(jìn)行集成,構(gòu)造一個加權(quán)的投票矩陣,根據(jù)三支決策規(guī)則進(jìn)行聚類劃分,得到最終的三支聚類結(jié)果。本發(fā)明大幅減少了算法運(yùn)行時間,提高了算法效率。
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)處理和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是涉及一種基于Spark的三支選擇性集成方法,三支決策領(lǐng)域。
背景技術(shù)
隨著社會信息化和網(wǎng)絡(luò)化的高速發(fā)展,數(shù)據(jù)每天都以爆炸式增長,面對海量數(shù)據(jù)的產(chǎn)生,大數(shù)據(jù)也吸引了越來越多的關(guān)注。醫(yī)療領(lǐng)域、生物科學(xué)領(lǐng)域、金融領(lǐng)域、互聯(lián)網(wǎng)等領(lǐng)域,日常運(yùn)營中生成、累積的數(shù)據(jù),已經(jīng)不能用GB或者TB來衡量。截止2012年,數(shù)據(jù)量已從TB級別躍升到PB、EB甚至ZB級別。這些數(shù)據(jù)蘊(yùn)含著很多價值,而對這些數(shù)據(jù)的分析挖掘能夠得到的新的信息和知識,對各個領(lǐng)域?qū)⒂兄鴱V泛的應(yīng)用,如電子商務(wù)、O2O、物流配送等,都是利用大數(shù)據(jù)進(jìn)行發(fā)展的領(lǐng)域,這些創(chuàng)新的運(yùn)營模式,正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務(wù)。因此對大數(shù)據(jù)的有效處理是非常必要的,是當(dāng)下廣闊市場的強(qiáng)需求。
聚類集成技術(shù)本身具有并行化的思想,能夠處理較大數(shù)據(jù),但是單機(jī)算法的局限,使得以往聚類集成方法不能夠處理大規(guī)模數(shù)據(jù)。Spark是一個開源大數(shù)據(jù)生態(tài)圈,由美國加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開發(fā)的一種基于內(nèi)存的分布式計算系統(tǒng)。相比MapReduce,Spark擁有MapReduce的優(yōu)點(diǎn)的同時,減少了MapReduce各個Job的中間計算保存環(huán)節(jié),大大減少了計算時間,以及數(shù)據(jù)處理的效率。Spark的核心是彈性分布式數(shù)據(jù)集(RDD),它是一個抽象的概念,分布于各個計算節(jié)點(diǎn)存儲于內(nèi)存中的數(shù)據(jù)對象集合,RDD分為轉(zhuǎn)換和動作兩種操作,可以對數(shù)據(jù)對象進(jìn)行函數(shù)處理。
三支決策思想的提出,從另一個角度定義了現(xiàn)實(shí)生活中存在的各種現(xiàn)象,給出了新的思考問題和解決問題的方式。研究者們將三支決策思想轉(zhuǎn)換為一個理論體系,廣泛適用于各個領(lǐng)域,如心理學(xué)領(lǐng)域、醫(yī)療診斷領(lǐng)域、管理學(xué)領(lǐng)域等等。對于三支聚類,主要體現(xiàn)于對聚類過程的三支決策和聚類結(jié)果的三支劃分。以往的聚類結(jié)果,通常用一個集合表示,從決策角度來看,這屬于一種二支的表示方式,即集合中的某個數(shù)據(jù)對象要么屬于這個類簇,要么不屬于這個類簇。這種明確二支劃分?jǐn)?shù)據(jù)對象的缺點(diǎn)是,不能夠表現(xiàn)出那些可能屬于這個類簇的數(shù)據(jù)對象,因而不能直觀地表現(xiàn)出對象對構(gòu)建類簇的影響程度。因?yàn)橛萌Q策的類簇表示更為合理,將確定屬于該類簇的數(shù)據(jù)對象劃分到類簇的核心域部分;將可能屬于該類簇的數(shù)據(jù)對象劃分到類簇的邊緣域部分;將確定不屬于該類簇的數(shù)據(jù)對象劃分到類簇的瑣碎域部分。
選擇性集成是聚類集成的一種擴(kuò)展,選擇性集成思想在于刪除差的基聚類器,選擇出具有準(zhǔn)確度高、差異性大的聚類成員,以使得最終得到的聚類結(jié)果具有更高的質(zhì)量以及魯棒性。選擇性集成的優(yōu)勢在于,能夠剔除冗余,改善基聚類器的質(zhì)量;減少聚類集成壓力;優(yōu)化最終聚類結(jié)果。
發(fā)明內(nèi)容
本發(fā)明旨在解決以上現(xiàn)有技術(shù)的問題。提出了一種有效提高聚類集成結(jié)果的質(zhì)量,能夠?yàn)橛脩籼峁┮粋€魯棒性更高、擴(kuò)展性更強(qiáng)的數(shù)據(jù)挖掘策略,提高算法效率,以滿足用戶需求的方法。本發(fā)明的技術(shù)方案如下:
一種基于Spark平臺采用兩次評價的加權(quán)選擇集成三支聚類方法,其包括以下步驟:
步驟1,對大數(shù)據(jù)集進(jìn)行分區(qū)管理并生成對應(yīng)的彈性分布式數(shù)據(jù)集RDD;
步驟2,使用基于Spark的K-Means聚類算法對每個分區(qū)的數(shù)據(jù)進(jìn)行聚類,生成多個不同的聚類成員;
步驟3,通過兩次評價,構(gòu)造聚類成員新的評價函數(shù)以及加權(quán)選擇策略,對聚類成員進(jìn)行選擇,刪除聚類效果不佳的聚類結(jié)果,構(gòu)成新的聚類成員;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710548072.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種Spark平臺性能自動優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品





