[發(fā)明專利]一種基于深度強化學(xué)習(xí)的列車運行調(diào)度方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710467955.1 | 申請日: | 2017-06-20 |
| 公開(公告)號: | CN107194612B | 公開(公告)日: | 2020-10-13 |
| 發(fā)明(設(shè)計)人: | 黃晉;黃思光;趙曦濱;高躍;夏雅楠 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/30;G06N3/08 |
| 代理公司: | 北京律譜知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11457 | 代理人: | 羅建書 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強化 學(xué)習(xí) 列車 運行 調(diào)度 方法 系統(tǒng) | ||
1.一種基于深度強化學(xué)習(xí)的列車運行調(diào)度方法,其特征在于,所述列車運行調(diào)度方法包括:
步驟S10,收集真實場景中一個車站的所有可調(diào)度列車及其時刻表信息以及所有可調(diào)度安排的司機信息,構(gòu)成原始信息;
步驟S20,將收集的原始信息進(jìn)行規(guī)則化處理;
步驟S30,利用規(guī)則化處理后的數(shù)據(jù)信息建立列車深度強化學(xué)習(xí)模型;所述列車深度強化學(xué)習(xí)模型給予強化學(xué)習(xí)智能體獎懲值和狀態(tài)轉(zhuǎn)移信息,并確定出可供智能體選擇的動作空間;并通過車站內(nèi)規(guī)則化處理的所有列車和司機的狀態(tài),抽象出列車和司機的狀態(tài)對應(yīng)的動作的價值,并根據(jù)該價值確定出最優(yōu)調(diào)度動作;
所述列車深度強化學(xué)習(xí)模型包括:列車運行調(diào)度環(huán)境模型模塊和價值網(wǎng)絡(luò)模塊;
所述列車運行調(diào)度環(huán)境模型給予強化學(xué)習(xí)智能體獎懲值和狀態(tài)轉(zhuǎn)移信息,并確定出可供智能體選擇的動作空間;
所述價值網(wǎng)絡(luò)模塊用于抽象車站內(nèi)所有列車和司機的狀態(tài),并輸出列車和司機在該狀態(tài)下對應(yīng)不同動作時的價值,根據(jù)抽象出的列車和司機的狀態(tài)對應(yīng)的動作的價值進(jìn)行最優(yōu)調(diào)度動作的選擇,并將選擇到的最優(yōu)調(diào)度動作反饋到列車運行調(diào)度環(huán)境模型;其中所選擇的最優(yōu)動作在所述列車運行調(diào)度環(huán)境模型提供的動作空間中;
步驟S40,利用深度強化學(xué)習(xí)模型進(jìn)行離線訓(xùn)練和學(xué)習(xí),得到訓(xùn)練好的列車深度強化學(xué)習(xí)模型;
步驟S50,利用訓(xùn)練好的深度強化學(xué)習(xí)模型進(jìn)行列車運行調(diào)度。
2.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法,其特征在于,所述步驟S20具體包括:
將每輛列車抽象為一個多元組,該多元組包含的信息為:車次,列車類型,列車當(dāng)前狀態(tài),列車當(dāng)前所處位置,列車到站時間,列車發(fā)車時間,列車平均運行速度;其中列車類型指的是客運列車或貨運列車,列車當(dāng)前狀態(tài)分為待調(diào)度狀態(tài),未到站狀態(tài),已調(diào)度狀態(tài),已出站狀態(tài);
將車站司機的信息規(guī)則化為二元組,該二元組包含的信息為:司機編號,司機狀態(tài);其中司機狀態(tài)分為已分配任務(wù),未分配任務(wù),已請假。
3.根據(jù)權(quán)利要求2所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法,其特征在于,所述列車運行調(diào)度環(huán)境模型模塊包括:
狀態(tài)轉(zhuǎn)移單元、動作空間單元以及獎賞函數(shù)單元;
所述狀態(tài)轉(zhuǎn)移單元根據(jù)前一時刻的列車狀態(tài)和價值網(wǎng)絡(luò)模塊輸出的當(dāng)前時刻的動作,來對當(dāng)前時刻車站內(nèi)的列車和司機的狀態(tài)實施狀態(tài)轉(zhuǎn)移;其中車站內(nèi)列車和司機的狀態(tài)根據(jù)規(guī)則化處理的列車信息和司機信息來定義;
所述動作空間單元用于根據(jù)當(dāng)前車站內(nèi)列車的狀態(tài)信息及司機的狀態(tài)信息來確定可供智能體選擇的動作范圍;
所述獎賞函數(shù)單元用于針對列車運行調(diào)度情況利用設(shè)定的獎賞函數(shù)計算輸出獎懲值,獎賞函數(shù)單元的輸出端連接價值網(wǎng)絡(luò)的輸入端;所述獎賞函數(shù)根據(jù)列車運行調(diào)度的優(yōu)化目標(biāo)來確定。
4.根據(jù)權(quán)利要求3所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法,其特征在于,所述列車運行調(diào)度的優(yōu)化目標(biāo)包括:正點率。
5.根據(jù)權(quán)利要求4所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法,其特征在于,所述獎賞函數(shù)用如下公式表示:
r=w1F1(A)+w2F2(B)
其中r為獎懲值,F(xiàn)1(A)和F2(B)分別為調(diào)度的客運列車和貨運列車的誤點率評分,w1和w2為權(quán)重值;
對于客運列車,所述誤點率評分表示為:
其中N為調(diào)度時間段內(nèi)總的客運列車數(shù)量,a為誤點的列車數(shù)量;
對于貨運列車,所述誤點率評分表示為:
其中N為調(diào)度時間段內(nèi)總的貨運列車數(shù)量,b為誤點的列車數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710467955.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





