[發(fā)明專利]基于Hadoop平臺多并行度的能耗預(yù)測方法在審
| 申請?zhí)枺?/td> | 202011631581.0 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112633599A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 高世鵬;胡文斌;張聲銓;姚躍;胡希;龐功點 | 申請(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/06;G06Q10/06;G06N5/00 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 平臺 并行 能耗 預(yù)測 方法 | ||
1.一種基于Hadoop平臺多并行度的能耗預(yù)測方法,其特征在于,包括以下步驟:
步驟1、基于列車歷史統(tǒng)計數(shù)據(jù),采用灰色關(guān)聯(lián)分析法建立能耗影響因素評估體系,體系中包括對影響因素重要度排序,確定樣本數(shù)據(jù);
步驟2、將樣本數(shù)據(jù)通過Hadoop中的Map任務(wù)進(jìn)行隨機(jī)化處理,使得步驟1確定的樣本數(shù)據(jù)進(jìn)行重新打亂;
步驟3、將步驟2新生成的數(shù)據(jù)樣本按照一定的比例劃分為訓(xùn)練樣本和測試樣本,并對訓(xùn)練樣本和測試樣本進(jìn)行歸一化處理;
步驟4、將訓(xùn)練樣本作為Hadoop平臺的輸入,訓(xùn)練樣本被劃分為一個個數(shù)據(jù)塊,設(shè)計Map函數(shù),每一個數(shù)據(jù)塊在Hadoop的Map任務(wù)里建立回歸決策樹模型對地鐵列車能耗進(jìn)行預(yù)測,模型中包括能耗預(yù)測模型的輸入特征變量,能耗預(yù)測模型的輸出目標(biāo)向量,最終將模型通過Reduce任務(wù)進(jìn)行保留;
步驟5、將步驟3生成的測試集作為步驟4建立的每個預(yù)測模型的輸入,每個模型進(jìn)行并行計算,并將預(yù)測的結(jié)果輸出到Reduce任務(wù)中進(jìn)行匯總;
步驟6、根據(jù)步驟5匯總的結(jié)果取平均數(shù)計算出最終的能耗預(yù)測值。
2.根據(jù)權(quán)利要求1所述的基于Hadoop平臺多并行度的能耗預(yù)測方法,其特征在于,步驟1中所述的列車歷史統(tǒng)計數(shù)據(jù)是從SCADA系統(tǒng)中獲取的列車牽引能耗原始數(shù)據(jù),原始數(shù)據(jù)包括待預(yù)測日期之前若干天的地鐵牽引能耗歷史數(shù)據(jù)以及溫度、客流、運行里程、開行列次的歷史數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的基于Hadoop平臺多并行度的能耗預(yù)測方法,其特征在于,步驟1所述的根據(jù)灰色關(guān)聯(lián)分析法選取牽引能耗的影響因素作為模型的輸入,具體如下:
步驟1.1:選取地鐵日牽引能耗為參考數(shù)列,能耗的影響因素變量為比較數(shù)列,記為Zi={zi(k)|k=1,2,…,n},i=0,1,2,…m;
其中,zi(k)為選取出來的參考數(shù)列和比較數(shù)列,將參考數(shù)列設(shè)為z0(k),i為參考數(shù)列和比較數(shù)列各自的編號,m為參考數(shù)列和比較數(shù)列的總數(shù),k為選取數(shù)據(jù)的日期,n為總的天數(shù);
步驟1.2:對地鐵日牽引能耗與各影響因素進(jìn)行無量綱化:
其中,為序列Zi的算術(shù)平均值;
步驟1.3:計算各影響因素與地鐵日牽引能耗的關(guān)聯(lián)系數(shù):
其中,Δi(k)=|z0(k)-z′i(k)|,z′i(k)為對zi(k)進(jìn)行無量綱化后的值,為所選日期中Δi(k)的最大值,為所選取日期中Δi(k)的最小值,ρ為分辨系數(shù);
步驟1.4:計算各影響因素與地鐵日牽引能耗的關(guān)聯(lián)度r0i:
其中,ξ0i(k)為步驟1.3求得的關(guān)聯(lián)系數(shù),k為選取數(shù)據(jù)的日期,n為總的天數(shù);
步驟1.5:按求得的關(guān)聯(lián)度數(shù)值大小排序,選取關(guān)聯(lián)系數(shù)值大于設(shè)定閾值的影響因素作為模型的輸入變量。
4.根據(jù)權(quán)利要求3所述的基于Hadoop平臺多并行度的能耗預(yù)測方法,其特征在于,ρ設(shè)置為0.5。
5.根據(jù)權(quán)利要求3所述的基于Hadoop平臺多并行度的能耗預(yù)測方法,其特征在于,設(shè)定閾值為0.6。
6.根據(jù)權(quán)利要求1所述的基于Hadoop平臺多并行度的能耗預(yù)測方法,其特征在于,步驟2所述的將樣本數(shù)據(jù)通過Hadoop中的Map任務(wù)進(jìn)行隨機(jī)化處理,具體如下:
數(shù)據(jù)樣本先按照Hadoop平臺提前設(shè)置好的分片大小進(jìn)行分塊操作,每一個分塊由相互獨立的Map任務(wù)進(jìn)行并行處理,通過Hadoop平臺的Shuffle機(jī)制將數(shù)據(jù)集進(jìn)行隨機(jī)打散,隨機(jī)的下發(fā)到下游的Reduce任務(wù)中進(jìn)行重新組合,進(jìn)而形成多個數(shù)據(jù)塊作為新的訓(xùn)練樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011631581.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機(jī)輔助管理
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





