[發(fā)明專(zhuān)利]基于云計(jì)算的大數(shù)據(jù)分布式處理方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201710130418.8 | 申請(qǐng)日: | 2017-03-07 |
| 公開(kāi)(公告)號(hào): | CN106951475A | 公開(kāi)(公告)日: | 2017-07-14 |
| 發(fā)明(設(shè)計(jì))人: | 梁明亮;孫逸潔;劉偉;蘇東民;董黎生 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鄭州鐵路職業(yè)技術(shù)學(xué)院 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06F9/50 |
| 代理公司: | 北京輕創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司11212 | 代理人: | 談杰 |
| 地址: | 451460 河*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 計(jì)算 數(shù)據(jù) 分布式 處理 方法 系統(tǒng) | ||
1.一種基于云計(jì)算的大數(shù)據(jù)分布式處理方法,其特征在于,其包括如下步驟:
S1、接收輸入文件,根據(jù)輸入文件大小進(jìn)行輸入分片,將各個(gè)輸入分片分配一個(gè)映射任務(wù),輸入分片存儲(chǔ)分片長(zhǎng)度以及記錄數(shù)據(jù)的位置的數(shù)組;
S2、通過(guò)預(yù)先編寫(xiě)的映射函數(shù)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行映射得到中間文件;
S3、合并中間文件中的重復(fù)鍵值,以降低映射輸出文件冗余;并對(duì)合并后的鍵值進(jìn)行序列化得到映射緩存文件;自動(dòng)獲取各個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值,根據(jù)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值將各個(gè)映射緩存文件分配到各個(gè)計(jì)算節(jié)點(diǎn)中;
S4、在內(nèi)存中開(kāi)辟環(huán)形內(nèi)存緩沖區(qū),環(huán)形內(nèi)存緩沖區(qū)用于映射輸出文件輸出;在環(huán)形內(nèi)存緩沖區(qū)中創(chuàng)建配置文件,在配置文件中配置內(nèi)存緩沖區(qū)的內(nèi)存占用閾值;在環(huán)形內(nèi)存緩沖區(qū)中內(nèi)存占用大于或等于占用閾值時(shí),保護(hù)線程暫停將數(shù)據(jù)寫(xiě)入內(nèi)存,并在內(nèi)存中寫(xiě)入溢出文件,溢出文件確定寫(xiě)入磁盤(pán)的文件,并將環(huán)形內(nèi)存緩沖區(qū)的文件寫(xiě)入磁盤(pán)直至所有的映射輸出文件輸出完畢;
S5、將所有的映射輸出文件并存儲(chǔ)到分布式文件存儲(chǔ)系統(tǒng)上。
2.如權(quán)利要求1所述的基于云計(jì)算的大數(shù)據(jù)分布式處理方法,其特征在于,所述步驟S1中對(duì)輸入文件大小進(jìn)行輸入分片包括:
建立關(guān)聯(lián)關(guān)系表,將輸入文件拆分為位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值,并將各個(gè)輸入文件的各個(gè)關(guān)系值的對(duì)應(yīng)關(guān)系寫(xiě)入關(guān)聯(lián)關(guān)系表中;
將各個(gè)關(guān)系值對(duì)應(yīng)的數(shù)據(jù)劃入輸入分片中。
3.如權(quán)利要求2所述的基于云計(jì)算的大數(shù)據(jù)分布式處理方法,其特征在于,所述步驟S2包括:
通過(guò)預(yù)先編寫(xiě)的映射函數(shù)將輸入分片按照映射任務(wù)進(jìn)行映射,所述映射包括按照預(yù)先設(shè)置的數(shù)據(jù)格式將輸入分片內(nèi)容進(jìn)行列表對(duì)齊,判斷位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值是否存在,如果各個(gè)關(guān)系值存在則直接保留,如果不存在某一項(xiàng)或某幾項(xiàng)關(guān)系值,則缺失的關(guān)系值為空;各個(gè)關(guān)系的排列順序均保持一致。
4.如權(quán)利要求3所述的基于云計(jì)算的大數(shù)據(jù)分布式處理方法,其特征在于,
所述步驟S5包括:
從關(guān)聯(lián)關(guān)系表中查詢(xún)各個(gè)映射輸出文件對(duì)應(yīng)的所有索引信息,將各個(gè)映射輸出文件的每個(gè)對(duì)應(yīng)一個(gè)段數(shù)據(jù)插入到段列表中;記錄段數(shù)據(jù)的位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值。
5.如權(quán)利要求3所述的基于云計(jì)算的大數(shù)據(jù)分布式處理方法,其特征在于,
所述步驟S2中對(duì)通過(guò)預(yù)先編寫(xiě)的映射函數(shù)將輸入分片按照映射任務(wù)進(jìn)行映射還包括根據(jù)關(guān)聯(lián)關(guān)系表判斷輸入分片是否存在邏輯錯(cuò)誤,如存在則丟棄該輸入分片。
6.一種基于云計(jì)算的大數(shù)據(jù)分布式處理系統(tǒng),其特征在于,其包括如下單元:
拆分單元,用于接收輸入文件,根據(jù)輸入文件大小進(jìn)行輸入分片,將各個(gè)輸入分片分配一個(gè)映射任務(wù),輸入分片存儲(chǔ)分片長(zhǎng)度以及記錄數(shù)據(jù)的位置的數(shù)組;
映射單元,用于通過(guò)預(yù)先編寫(xiě)的映射函數(shù)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行映射得到中間文件;
計(jì)算單元,用于合并中間文件中的重復(fù)鍵值,以降低映射輸出文件冗余;并對(duì)合并后的鍵值進(jìn)行序列化得到映射緩存文件;自動(dòng)獲取各個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值,根據(jù)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值將各個(gè)映射緩存文件分配到各個(gè)計(jì)算節(jié)點(diǎn)中;
輸出單元,用于在內(nèi)存中開(kāi)辟環(huán)形內(nèi)存緩沖區(qū),環(huán)形內(nèi)存緩沖區(qū)用于映射輸出文件輸出;在環(huán)形內(nèi)存緩沖區(qū)中創(chuàng)建配置文件,在配置文件中配置內(nèi)存緩沖區(qū)的內(nèi)存占用閾值;在環(huán)形內(nèi)存緩沖區(qū)中內(nèi)存占用大于或等于占用閾值時(shí),保護(hù)線程暫停將數(shù)據(jù)寫(xiě)入內(nèi)存,并在內(nèi)存中寫(xiě)入溢出文件,溢出文件確定寫(xiě)入磁盤(pán)的文件,并將環(huán)形內(nèi)存緩沖區(qū)的文件寫(xiě)入磁盤(pán)直至所有的映射輸出文件輸出完畢;
合并存儲(chǔ)單元,用于將所有的映射輸出文件并存儲(chǔ)到分布式文件存儲(chǔ)系統(tǒng)上。
7.如權(quán)利要求6所述的基于云計(jì)算的大數(shù)據(jù)分布式處理系統(tǒng),其特征在于,所述拆分單元中對(duì)輸入文件大小進(jìn)行輸入分片包括:
建立關(guān)聯(lián)關(guān)系表,將輸入文件拆分為位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值,并將各個(gè)輸入文件的各個(gè)關(guān)系值的對(duì)應(yīng)關(guān)系寫(xiě)入關(guān)聯(lián)關(guān)系表中;
將各個(gè)關(guān)系值對(duì)應(yīng)的數(shù)據(jù)劃入輸入分片中。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鄭州鐵路職業(yè)技術(shù)學(xué)院,未經(jīng)鄭州鐵路職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710130418.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





