[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的鐵路機(jī)車運(yùn)行操控系統(tǒng)混合任務(wù)調(diào)度方法有效
| 申請?zhí)枺?/td> | 201710025977.2 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN106802553B | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設(shè)計(jì))人: | 趙曦濱;黃思光;黃晉;楊帆;顧明;孫家廣 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02 |
| 代理公司: | 北京律譜知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11457 | 代理人: | 羅建書 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 鐵路 機(jī)車 運(yùn)行 操控 系統(tǒng) 混合 任務(wù) 調(diào)度 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的鐵路機(jī)車運(yùn)行操控系統(tǒng)混合任務(wù)調(diào)度方法,其特征在于,所述的混合任務(wù)包括:周期性實(shí)時(shí)任務(wù)、非周期性實(shí)時(shí)任務(wù)以及非實(shí)時(shí)任務(wù);所述的混合任務(wù)調(diào)度方法包括:
步驟(1)、采集鐵路機(jī)車運(yùn)行操控系統(tǒng)實(shí)際運(yùn)行或仿真實(shí)驗(yàn)中的混合任務(wù)集數(shù)據(jù),形成混合任務(wù)集合;
步驟(2)、將混合任務(wù)集合中的每個(gè)任務(wù)進(jìn)行規(guī)則化標(biāo)記;
步驟(3)、將規(guī)則化標(biāo)記后的任務(wù)集合作為強(qiáng)化學(xué)習(xí)系統(tǒng)的輸入,構(gòu)成強(qiáng)化學(xué)習(xí)環(huán)境,強(qiáng)化學(xué)習(xí)系統(tǒng)應(yīng)用強(qiáng)化學(xué)習(xí)算法,根據(jù)機(jī)車運(yùn)行操控系統(tǒng)的調(diào)度目標(biāo)進(jìn)行迭代學(xué)習(xí)過程;
步驟(4)、強(qiáng)化學(xué)習(xí)系統(tǒng)生成對應(yīng)機(jī)車運(yùn)行操控系統(tǒng)混合任務(wù)集合的多個(gè)<狀態(tài)-規(guī)則>關(guān)系表,并將該多個(gè)<狀態(tài)-規(guī)則>關(guān)系表保存在數(shù)據(jù)庫中;
步驟(5)、針對數(shù)據(jù)庫中保存的多個(gè)<狀態(tài)-規(guī)則>表,對于每個(gè)狀態(tài),挑選出現(xiàn)頻率最高的規(guī)則作為當(dāng)前狀態(tài)的最優(yōu)規(guī)則,形成最優(yōu)<狀態(tài)-規(guī)則>對應(yīng)關(guān)系表;
步驟(6)、根據(jù)最優(yōu)<狀態(tài)-規(guī)則>對應(yīng)關(guān)系表,指導(dǎo)生成機(jī)車運(yùn)行操控系統(tǒng)混合任務(wù)的實(shí)時(shí)調(diào)度序列,實(shí)現(xiàn)任務(wù)調(diào)度,
所述強(qiáng)化學(xué)習(xí)算法基于Q學(xué)習(xí)算法,基于Q學(xué)習(xí)算法的強(qiáng)化學(xué)習(xí)過程如下:
(3.1)初始化矩陣Q:該矩陣為二維矩陣,其中每一行對應(yīng)一種鐵路機(jī)車運(yùn)行操控系統(tǒng)狀態(tài),每一列則對應(yīng)一種動(dòng)作,動(dòng)作包括單一調(diào)度規(guī)則和兩元組合的調(diào)度規(guī)則,初始時(shí)將矩陣Q的值設(shè)為0;
(3.2)從強(qiáng)化學(xué)習(xí)環(huán)境中獲取鐵路機(jī)車運(yùn)行操控系統(tǒng)的當(dāng)前狀態(tài);
(3.3)根據(jù)搜索策略選擇動(dòng)作,動(dòng)作為調(diào)度規(guī)則,從動(dòng)作集合空間中選擇;
(3.4)執(zhí)行動(dòng)作并獲得獎(jiǎng)懲函數(shù)返回獎(jiǎng)勵(lì)值,對獎(jiǎng)懲函數(shù)的設(shè)計(jì)形式如下:
r=w1F(A)+w2F(B)+w3F(C)
其中,A、B、C分別為鐵路機(jī)車運(yùn)行操控系統(tǒng)當(dāng)前狀態(tài)下周期性實(shí)時(shí)任務(wù)集合、非周期性實(shí)時(shí)任務(wù)集合以及非實(shí)時(shí)任務(wù)集合,F(xiàn)函數(shù)是上述的針對每種類型任務(wù)調(diào)度情況的量化函數(shù),w1、w2、w3分別指每種任務(wù)類型的調(diào)度效果對調(diào)度優(yōu)化目標(biāo)的貢獻(xiàn)權(quán)重,通過改變該權(quán)重值可以獲取不同的調(diào)度優(yōu)化目標(biāo);
針對不同任務(wù)類型的F函數(shù)設(shè)計(jì)如下:
其中ei為周期性任務(wù)i的執(zhí)行結(jié)束時(shí)間,di為周期性任務(wù)i的截止時(shí)間,ci為周期性任務(wù)i的執(zhí)行時(shí)間,γ為常量且大于0,周期性任務(wù)超截止期時(shí)間越長,對應(yīng)的F(A)函數(shù)值越大,設(shè)置w1<0,則懲罰值也越大;
其中ai為非周期性實(shí)時(shí)任務(wù)的到達(dá)時(shí)間,si為非周期性實(shí)時(shí)任務(wù)的開始執(zhí)行時(shí)間,ci為非周期性實(shí)時(shí)任務(wù)i的執(zhí)行時(shí)間,α與γ為常量且均大于0;非周期性實(shí)時(shí)任務(wù)等待時(shí)間和任務(wù)完成后超截止期時(shí)間越長則F(B)的函數(shù)值越大,相應(yīng)給予越大的懲罰值,
其中ai為非實(shí)時(shí)任務(wù)的到達(dá)時(shí)間,si為非實(shí)時(shí)任務(wù)的開始執(zhí)行時(shí)間,ci為非實(shí)時(shí)任務(wù)i的執(zhí)行時(shí)間,α為常量且大于0;
(3.5)根據(jù)即時(shí)的獎(jiǎng)勵(lì)值,更新Q矩陣和當(dāng)前狀態(tài)遷移;
對Q矩陣的狀態(tài)更新可根據(jù)以下公式實(shí)現(xiàn):
s=st+1
其中Q(s,a)指系統(tǒng)狀態(tài)為s選擇動(dòng)作為a的Q值,ri,t為獎(jiǎng)懲值,0<γ≤1是折扣率,智能主體重復(fù)地感知當(dāng)前狀態(tài)s,從允許動(dòng)作集合空間中選擇某個(gè)動(dòng)作a,執(zhí)行此動(dòng)作,獲得獎(jiǎng)勵(lì)值,并觀察下一個(gè)動(dòng)作,同時(shí)更新Q矩陣,算法迭代次數(shù)越高,得到的Q值表越真實(shí)合理,從而得到較優(yōu)解,
(3.6)任務(wù)結(jié)束條件是完成鐵路機(jī)車運(yùn)行操控系統(tǒng)混合任務(wù)集里所有任務(wù)的調(diào)度或者系統(tǒng)任務(wù)集進(jìn)入不可調(diào)度的情形。
2.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的鐵路機(jī)車運(yùn)行操控系統(tǒng)混合任務(wù)調(diào)度方法,其特征在于,所述步驟(2)中所采用的規(guī)則化標(biāo)記為:規(guī)則化每個(gè)任務(wù)為7元組,元組的元素分別為:任務(wù)類型、任務(wù)提交時(shí)刻、任務(wù)執(zhí)行時(shí)刻、任務(wù)執(zhí)行中斷時(shí)刻鏈表、任務(wù)結(jié)束時(shí)刻、任務(wù)截止期和任務(wù)提交周期。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710025977.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





