[發(fā)明專利]一種基于元強化學(xué)習(xí)的列車受電弓自適應(yīng)控制方法在審
| 申請?zhí)枺?/td> | 202310630245.1 | 申請日: | 2023-05-31 |
| 公開(公告)號: | CN116577991A | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計)人: | 劉志剛;王惠 | 申請(專利權(quán))人: | 西南交通大學(xué) |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 成都信博專利代理有限責(zé)任公司 51200 | 代理人: | 秦立飛 |
| 地址: | 610031 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學(xué)習(xí) 列車 受電弓 自適應(yīng) 控制 方法 | ||
1.一種基于元強化學(xué)習(xí)的列車受電弓自適應(yīng)控制方法,其特征在于,控制系統(tǒng)包括氣囊、供氣源、精密調(diào)壓閥、控制器和信息采集單元;供氣源連接氣囊用于提供穩(wěn)定氣壓,精密調(diào)壓閥用于精確控制氣囊壓強,控制單元連接精密調(diào)壓閥用于輸出控制信號,信息采集單元用于采集控制器決策所用信息;控制方法具體包括以下步驟:
步驟1:信息采集單元獲取受電弓狀態(tài)信息、列車運行信息和接觸網(wǎng)信息;
步驟2:初始化一批不同受電弓、接觸網(wǎng)、環(huán)境擾動參數(shù)的控制任務(wù),建立控制器控制動作與接觸網(wǎng)交互樣本數(shù)據(jù)集;
步驟3:基于步驟2所建立的交互樣本數(shù)據(jù)集,采用任務(wù)編碼網(wǎng)絡(luò)學(xué)習(xí)任務(wù)編碼,采用強化學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)行為策略;
步驟4:根據(jù)步驟3的最優(yōu)行為策略作為控制器,將控制器補償動作輸出受電弓氣閥板上的精密調(diào)壓閥從而控制氣囊壓強。
2.根據(jù)權(quán)利要求1所述的一種基于元強化學(xué)習(xí)的列車受電弓自適應(yīng)控制方法,其特征在于,所述步驟1中的受電弓狀態(tài)信息包括受電弓升弓高度、弓頭垂向速度、弓頭垂向加速度和開閉口方向;列車運行信息包括列車運行速度和運行方向;接觸網(wǎng)信息包括接觸網(wǎng)的剛度、跨度和吊弦分布信息。
3.根據(jù)權(quán)利要求2所述的一種基于元強化學(xué)習(xí)的列車受電弓自適應(yīng)控制方法,其特征在于,所述步驟2具體為:
步驟2.1:定義深度強化學(xué)習(xí)馬爾可夫決策環(huán)境關(guān)鍵要素:狀態(tài)空間,動作空間和獎勵函數(shù):
1)狀態(tài)空間:狀態(tài)空間包含所有步驟1的狀態(tài)信息,其表示為:
S={s|st=(spantograph,scatenary,strain)}
其中,spantograph表示受電弓狀態(tài)信息,scatenary表示接觸網(wǎng)信息,strain表示列車運行信息;
2)動作空間:動作空間包含氣囊氣壓變化的范圍,其表示為:
A={a|amin≤at≤amax}
其中,amin表示氣囊最小設(shè)定氣壓,amax表示氣囊最大設(shè)定氣壓;
3)獎勵函數(shù):獎勵函數(shù)用于獎勵策略網(wǎng)絡(luò)向最優(yōu)策略收斂;
rt=-|Fr-Fpc(t)|
其中,F(xiàn)r表示最優(yōu)弓網(wǎng)接觸力,F(xiàn)pc(t)表示實際弓網(wǎng)接觸力;
步驟2.2:建立虛擬仿真平臺,初始化一批不同受電弓、接觸網(wǎng)、環(huán)境擾動參數(shù)的弓網(wǎng)系統(tǒng)控制任務(wù),運行所有控制任務(wù)生成虛擬仿真樣本庫;
步驟2.3:步驟2.2樣本獲取過程如下:深度強化學(xué)習(xí)網(wǎng)絡(luò)獲得當(dāng)前時間步狀態(tài)st并生成動作at給受電弓氣閥板,氣閥板執(zhí)行控制后,深度強化學(xué)習(xí)網(wǎng)絡(luò)獲得獎勵rt和下一時間步受電弓狀態(tài)st+1;產(chǎn)生樣本(st,at,rt,st+1)并存儲在數(shù)據(jù)庫中,重復(fù)以上步驟直至訓(xùn)練結(jié)束;
步驟2.4:以運行線路參數(shù)和實際受電弓建立半實物半虛擬平臺建立平臺樣本庫,樣本獲取過程同步驟2.3。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西南交通大學(xué),未經(jīng)西南交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310630245.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





