[發(fā)明專(zhuān)利]一種基于Hadoop的并行k近鄰分類(lèi)方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201210071445.X | 申請(qǐng)日: | 2012-03-19 |
| 公開(kāi)(公告)號(hào): | CN102622446A | 公開(kāi)(公告)日: | 2012-08-01 |
| 發(fā)明(設(shè)計(jì))人: | 高陽(yáng);楊育彬;王靈江;商琳 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京大學(xué);南京大學(xué)江陰信息技術(shù)研究院 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 南京蘇高專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 夏雪 |
| 地址: | 210046 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hadoop 并行 近鄰 分類(lèi) 方法 | ||
1.一種基于Hadoop的并行k近鄰分類(lèi)方法,包括如下步驟:
(1)數(shù)據(jù)預(yù)處理;
(2)在Hadoop平臺(tái)各個(gè)節(jié)點(diǎn)的Mapper端并行計(jì)算一個(gè)測(cè)試數(shù)據(jù)與位于該節(jié)點(diǎn)的訓(xùn)練數(shù)據(jù)的距離;
(3)在所述Mapper端用選擇算法確定該測(cè)試數(shù)據(jù)的局部k近鄰數(shù)據(jù),將所有局部k近鄰數(shù)據(jù)發(fā)送到Hadoop各個(gè)節(jié)點(diǎn)的Reducer端;
(4)在所述Reducer端接收該測(cè)試數(shù)據(jù)的所有局部k近鄰數(shù)據(jù),用選擇算法確定全局k近鄰數(shù)據(jù);
(5)利用所述全局k近鄰數(shù)據(jù)對(duì)該測(cè)試數(shù)據(jù)進(jìn)行分類(lèi),得到該測(cè)試數(shù)據(jù)的分類(lèi)結(jié)果;
(6)重復(fù)執(zhí)行步驟(2)至(5),得到所有測(cè)試數(shù)據(jù)的分類(lèi)結(jié)果。
2.根據(jù)權(quán)利要求1所述一種基于Hadoop的并行k近鄰分類(lèi)方法,其特征在于:所述局部k近鄰數(shù)據(jù)為(key,value),其中key為測(cè)試數(shù)據(jù),value為所述距離和訓(xùn)練數(shù)據(jù)的類(lèi)標(biāo)的組合數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述一種基于Hadoop的并行k近鄰分類(lèi)方法,其特征在于:所述步驟(5)中,分類(lèi)的依據(jù)是D-F理論。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京大學(xué);南京大學(xué)江陰信息技術(shù)研究院,未經(jīng)南京大學(xué);南京大學(xué)江陰信息技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210071445.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢(xún)的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門(mén)衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法
- 簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)
- 在具有拓?fù)錉顟B(tài)路由協(xié)議的通信網(wǎng)絡(luò)中的資源匹配的拓?fù)鋽?shù)據(jù)庫(kù)同步
- 驗(yàn)證近鄰小區(qū)
- 基于動(dòng)態(tài)裁剪的移動(dòng)對(duì)象反向近鄰查詢(xún)方法
- 一種室內(nèi)定位方法
- 基于互為共享最近鄰的層次聚類(lèi)方法
- 一種基于花朵授粉算法優(yōu)化模糊K近鄰的分類(lèi)方法及裝置
- 高維近鄰對(duì)搜索方法和系統(tǒng)
- 一種泛化的k近鄰圖合并方法
- 一種基于多階近鄰預(yù)測(cè)的推薦系統(tǒng)及方法
- 一種基于兩層鄰域信息的雙重最近鄰分類(lèi)方法及系統(tǒng)





