[發明專利]列車自動駕駛系統參數自學習雙Q表聯合代理建立方法有效
| 申請號: | 202110019417.2 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112733448B | 公開(公告)日: | 2023-03-03 |
| 發明(設計)人: | 羅森林;劉曉雙;秦梟喃;門元昊;周麗華;彭朝陽;柴榮陽 | 申請(專利權)人: | 北京理工大學;通號城市軌道交通技術有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/092;B61L27/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 列車 自動 駕駛 系統 參數 自學習 聯合 代理 建立 方法 | ||
1.列車自動駕駛系統參數自學習的雙Q表聯合代理的建立方法,其特征在于所述方法包括如下步驟:
步驟1,建立列車運行仿真環境;
步驟1.1,基于電子地圖數據、列車理論性能參數及理論響應延時,利用單質點受力模型建立列車運動學模型及仿真系統框架;
步驟1.2,將現有ATO系統轉化封裝為控制庫,由仿真系統向控制庫發送列車速度、地圖位置,控制庫將根據與真實列車相同的控車邏輯、策略、算法計算控車輸出級位levelt;
步驟1.3,仿真系統根據控車級位,根據響應延時、列車速度、所處位置的坡度、預設噪聲水平、電空制動轉換特性仿真細節計算實際加速度;
步驟1.3.1,根據預設響應延時對控車級位序列進行延時處理,更新控車作用級位序列,并將序列中當前周期級位作為實際作用級位,用于計算;
步驟1.3.2,由列車的出廠參數及動調數據建立理論性能參數表,根據列車速度及上一步中獲取的實際作用級位,查表獲得當前周期理論加速度a1;
步驟1.3.3,由電子地圖中的當前位置坡度信息,換算為車輛對應的加速度,與當前周期理論加速度a1相加獲得預處理加速度a2;
步驟1.3.4,在預處理加速度的基礎上添加加速度噪聲波動,同時可針對控車庫精度問題進行惰行補償操作,彌補低加速度被精度換轉消除問題,獲得預處理加速度a3;
步驟1.3.5,模擬電制動的提早、延后、過快、過緩衰退,以及空氣制動的提早、延后、過快、過緩增益,組合產生不同形式的電空轉換表現,根據a3生成電制動加速度aelc及空氣制動aair,并分別進行隨機衰退、增益,疊加后獲得預處理加速度a4;
步驟1.3.6,對預處理加速度a4進行精度修正及其它相關細節處理,獲得當前周期的實際加速度at;
步驟1.4,選取電子地圖中的特定站,初始化位置信息數據,開始循環利用控車庫輸出級位levelt、計算實際加速度at、根據物理模型計算速度vt更新位置St,直至列車完成特定站的運行直至停靠到下一站臺;
步驟2,訓練參數自學習代理;
步驟2.1,設置訓練超參數,包括訓練模式、任務選擇、代理訓練次數、代理測試次數、仿真環境配置;
步驟2.2,代理初始化,即Q表初始化,針對舒適度及停準率兩個調參目標,分別建立兩個調參代理,并分別進行訓練;
步驟2.3,代理執行外循環訓練;
步驟2.3.1,外循環訓練中首先對訓練超參數進行自更新,包括學習率alpha自更新、探索率epsilon自更新;
步驟2.3.2,代理執行內循環訓練;
步驟2.3.2.1,內循環中首先初始化一輛列車,設置運行參數和模式,對列車全局的性能參數表和運行狀態進行調整以實現單輛列車的初始化;
步驟2.3.2.2,針對該列車,進行轉換參數的調整動作抽取并執行,在獲取當前列車狀態current_state后進行動作抽取,根據選取的動作對轉換參數進行調整,之后繼續運行仿真,獲取列車下一個狀態next_state,動作抽取以高獎勵優先、隨機選擇兩種模式進行;
步驟2.3.2.3,將對轉換參數進行過調整的仿真列車進行運行仿真,運行仿真是基于配置的電子地圖、初始化后的特定列車,進行單站或全線路并行運行仿真,并提取出列車在狀態轉換參數下的停車表現;
步驟2.3.2.4,完成運行仿真后,將對狀態和獎勵計算,其中,針對舒適度的獎勵采用仿真運行曲線與理想運行曲線誤差面積的表征指標進行表示,獎勵中包含全線路停靠表現,計算宏觀化獎勵;
步驟2.4,提取出分別針對舒適度和停準率目標訓練完成后的Q表,獲得兩個訓練參數自學習Q表,進行固化;
步驟3,雙Q表聯合代理工作;
步驟3.1,將雙Q表嵌入到車載ATO系統內,并為其建立新的配置屬性及相關數據交互接口,從而實現參數自學習;
步驟3.2,列車由初始或出廠轉換參數開始在ATO全程控車的條件下開始運行,舒適度Q表首先以高的決定權,以舒適度為首要目標對車輛轉換參數進行調節,優化列車運行效率、速度曲線、舒適性關鍵指標,并記錄舒適度的綜合評價值變化記錄;同時,停準率Q表也具有穩定的決定權,在優化舒適度的同時,同步優化停準率;
步驟3.3,隨著舒適度綜合評價值達到預設閾值或是趨于平穩,舒適度Q表的決定權逐漸下降直至不再作用,而停準率Q表的決定權維持不變,從而以停準率為目標,保證列車可在ATO控制下實現站站停準;
步驟3.4,當列車滿足連續若干站停準后,聯合代理將停止工作,直至監測到列車出現未停準情況,代理將自動重啟,優化轉換參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學;通號城市軌道交通技術有限公司,未經北京理工大學;通號城市軌道交通技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110019417.2/1.html,轉載請聲明來源鉆瓜專利網。





