[發(fā)明專利]一種基于深度強化學(xué)習(xí)的列車運行調(diào)度方法及系統(tǒng)有效

申請?zhí)枺?/td>	201710467955.1	申請日：	2017-06-20
公開（公告）號：	CN107194612B	公開（公告）日：	2020-10-13
發(fā)明（設(shè)計）人：	黃晉;黃思光;趙曦濱;高躍;夏雅楠	申請（專利權(quán)）人：	清華大學(xué)
主分類號：	G06Q10/06	分類號：	G06Q10/06;G06Q50/30;G06N3/08
代理公司：	北京律譜知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11457	代理人：	羅建書
地址：	100084***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于深度強化學(xué)習(xí) 列車運行調(diào)度方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于深度強化學(xué)習(xí)的列車運行調(diào)度方法，其特征在于，所述列車運行調(diào)度方法包括：

步驟S10，收集真實場景中一個車站的所有可調(diào)度列車及其時刻表信息以及所有可調(diào)度安排的司機信息，構(gòu)成原始信息；

步驟S20，將收集的原始信息進(jìn)行規(guī)則化處理；

步驟S30，利用規(guī)則化處理后的數(shù)據(jù)信息建立列車深度強化學(xué)習(xí)模型；所述列車深度強化學(xué)習(xí)模型給予強化學(xué)習(xí)智能體獎懲值和狀態(tài)轉(zhuǎn)移信息，并確定出可供智能體選擇的動作空間；并通過車站內(nèi)規(guī)則化處理的所有列車和司機的狀態(tài)，抽象出列車和司機的狀態(tài)對應(yīng)的動作的價值，并根據(jù)該價值確定出最優(yōu)調(diào)度動作；

所述列車深度強化學(xué)習(xí)模型包括：列車運行調(diào)度環(huán)境模型模塊和價值網(wǎng)絡(luò)模塊；

所述列車運行調(diào)度環(huán)境模型給予強化學(xué)習(xí)智能體獎懲值和狀態(tài)轉(zhuǎn)移信息，并確定出可供智能體選擇的動作空間；

所述價值網(wǎng)絡(luò)模塊用于抽象車站內(nèi)所有列車和司機的狀態(tài)，并輸出列車和司機在該狀態(tài)下對應(yīng)不同動作時的價值，根據(jù)抽象出的列車和司機的狀態(tài)對應(yīng)的動作的價值進(jìn)行最優(yōu)調(diào)度動作的選擇，并將選擇到的最優(yōu)調(diào)度動作反饋到列車運行調(diào)度環(huán)境模型；其中所選擇的最優(yōu)動作在所述列車運行調(diào)度環(huán)境模型提供的動作空間中；

步驟S40，利用深度強化學(xué)習(xí)模型進(jìn)行離線訓(xùn)練和學(xué)習(xí)，得到訓(xùn)練好的列車深度強化學(xué)習(xí)模型；

步驟S50，利用訓(xùn)練好的深度強化學(xué)習(xí)模型進(jìn)行列車運行調(diào)度。

2.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法，其特征在于，所述步驟S20具體包括：

將每輛列車抽象為一個多元組，該多元組包含的信息為：車次，列車類型，列車當(dāng)前狀態(tài)，列車當(dāng)前所處位置，列車到站時間，列車發(fā)車時間，列車平均運行速度；其中列車類型指的是客運列車或貨運列車，列車當(dāng)前狀態(tài)分為待調(diào)度狀態(tài)，未到站狀態(tài)，已調(diào)度狀態(tài)，已出站狀態(tài)；

將車站司機的信息規(guī)則化為二元組，該二元組包含的信息為：司機編號，司機狀態(tài)；其中司機狀態(tài)分為已分配任務(wù)，未分配任務(wù)，已請假。

3.根據(jù)權(quán)利要求2所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法，其特征在于，所述列車運行調(diào)度環(huán)境模型模塊包括：

狀態(tài)轉(zhuǎn)移單元、動作空間單元以及獎賞函數(shù)單元；

所述狀態(tài)轉(zhuǎn)移單元根據(jù)前一時刻的列車狀態(tài)和價值網(wǎng)絡(luò)模塊輸出的當(dāng)前時刻的動作，來對當(dāng)前時刻車站內(nèi)的列車和司機的狀態(tài)實施狀態(tài)轉(zhuǎn)移；其中車站內(nèi)列車和司機的狀態(tài)根據(jù)規(guī)則化處理的列車信息和司機信息來定義；

所述動作空間單元用于根據(jù)當(dāng)前車站內(nèi)列車的狀態(tài)信息及司機的狀態(tài)信息來確定可供智能體選擇的動作范圍；

所述獎賞函數(shù)單元用于針對列車運行調(diào)度情況利用設(shè)定的獎賞函數(shù)計算輸出獎懲值，獎賞函數(shù)單元的輸出端連接價值網(wǎng)絡(luò)的輸入端；所述獎賞函數(shù)根據(jù)列車運行調(diào)度的優(yōu)化目標(biāo)來確定。

4.根據(jù)權(quán)利要求3所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法，其特征在于，所述列車運行調(diào)度的優(yōu)化目標(biāo)包括：正點率。

5.根據(jù)權(quán)利要求4所述的基于深度強化學(xué)習(xí)的列車運行調(diào)度方法，其特征在于，所述獎賞函數(shù)用如下公式表示：

r＝w₁F₁(A)+w₂F₂(B)

其中r為獎懲值，F(xiàn)₁(A)和F₂(B)分別為調(diào)度的客運列車和貨運列車的誤點率評分，w₁和w₂為權(quán)重值；

對于客運列車，所述誤點率評分表示為：

其中N為調(diào)度時間段內(nèi)總的客運列車數(shù)量，a為誤點的列車數(shù)量；

對于貨運列車，所述誤點率評分表示為：

其中N為調(diào)度時間段內(nèi)總的貨運列車數(shù)量，b為誤點的列車數(shù)量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)，未經(jīng)清華大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710467955.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種帶有吸振器裝置的軋機輥系振動抑制方法
下一篇：一種四線出口導(dǎo)衛(wèi)裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法；其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政；管理
G06Q10-02 .預(yù)定，例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化，例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理，例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源；企業(yè)規(guī)劃；組織模型
G06Q10-08 .物流，例如倉儲、裝貨、配送或運輸；存貨或庫存管理，例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化，例如電子郵件或群件的計算機輔助管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】