[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)車智能操縱方法與系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710045758.0 | 申請(qǐng)日: | 2017-01-20 |
| 公開(公告)號(hào): | CN106842925B | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設(shè)計(jì))人: | 趙曦濱;夏雅楠;黃晉;盧莎;任育琦;顧明;孫家廣 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué);中車信息技術(shù)有限公司;中車大連機(jī)車研究所有限公司 |
| 主分類號(hào): | G05B13/04 | 分類號(hào): | G05B13/04 |
| 代理公司: | 北京律譜知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11457 | 代理人: | 羅建書 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 機(jī)車 智能 操縱 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)車智能操縱方法與系統(tǒng),該系統(tǒng)包括數(shù)據(jù)源模塊、機(jī)車運(yùn)行環(huán)境學(xué)習(xí)模塊、評(píng)價(jià)機(jī)制學(xué)習(xí)模塊和控制策略學(xué)習(xí)模塊,數(shù)據(jù)源模塊為機(jī)車運(yùn)行環(huán)境學(xué)習(xí)模塊和評(píng)價(jià)機(jī)制學(xué)習(xí)模塊提供所需的數(shù)據(jù)輸入,機(jī)車運(yùn)行環(huán)境學(xué)習(xí)模塊和評(píng)價(jià)機(jī)制學(xué)習(xí)模塊將分別獲得的具體的運(yùn)行環(huán)境和獎(jiǎng)賞函數(shù)值輸出至控制策略學(xué)習(xí)模塊。基于深度強(qiáng)化學(xué)習(xí)算法,機(jī)車運(yùn)行環(huán)境模型以機(jī)車操縱動(dòng)作的實(shí)時(shí)評(píng)價(jià)作為反饋信息,通過獎(jiǎng)賞或懲罰當(dāng)前的操縱動(dòng)作,給控制策略反饋一個(gè)獎(jiǎng)賞函數(shù)作為獎(jiǎng)賞評(píng)價(jià)值,控制策略結(jié)合運(yùn)行狀態(tài)迭代地進(jìn)行策略的更新與優(yōu)化。本發(fā)明能更好的實(shí)現(xiàn)機(jī)車智能優(yōu)化操縱,并極大地減少了人工參與。
技術(shù)領(lǐng)域
本發(fā)明涉及一種機(jī)車操縱方法與系統(tǒng),尤其涉及一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)車智能操縱方法與系統(tǒng),屬于機(jī)車控制領(lǐng)域。
背景技術(shù)
鐵路機(jī)車的自動(dòng)駕駛和優(yōu)化操縱對(duì)于解放人力、降低能耗、提高機(jī)車準(zhǔn)點(diǎn)率和安全性等方面具有重要作用。由于列車運(yùn)行環(huán)境復(fù)雜、影響因素眾多,各國學(xué)者在機(jī)車操縱優(yōu)化算法進(jìn)行了大量研究,其中大體可以分為三類:解析求解方法、數(shù)值優(yōu)化方法和啟發(fā)式的優(yōu)化算法。在解析求解方法應(yīng)用中,一般分為兩種:一種應(yīng)用于輸入的牽引力和制動(dòng)力是離散類型的機(jī)車,另一種應(yīng)用于輸入的牽引力和制動(dòng)力是連續(xù)類型的機(jī)車。但是解析求解方法中的約束過于簡單,不能很好的擬合機(jī)車顯示運(yùn)行情況,而數(shù)值優(yōu)化方法實(shí)時(shí)性較差,難以用于機(jī)車的實(shí)時(shí)優(yōu)化控制,啟發(fā)式的優(yōu)化算法具有人工依賴度過大的缺點(diǎn)。目前的機(jī)車操縱實(shí)時(shí)控制算法一般都會(huì)基于特定假設(shè)進(jìn)行設(shè)計(jì),難以適用于機(jī)車復(fù)雜的運(yùn)行工況,從而難以確保機(jī)車運(yùn)行安全。
近年來,基于機(jī)器學(xué)習(xí)人工智能技術(shù)的機(jī)車優(yōu)化控制也成為研究熱點(diǎn)。LuoHengyu和Xu Hongze提出了一個(gè)適用于高速機(jī)車自動(dòng)化控制操作系統(tǒng)的綜合智能控制系統(tǒng)。系統(tǒng)中包含多個(gè)模糊神經(jīng)網(wǎng)絡(luò)控制器,并用專家決策系統(tǒng)基于機(jī)車的運(yùn)行狀態(tài)自動(dòng)選擇最優(yōu)的控制器以實(shí)現(xiàn)機(jī)車的有效控制。Heqing Sun等人提出了一個(gè)迭代的學(xué)習(xí)算法以實(shí)現(xiàn)機(jī)車運(yùn)行軌跡的跟蹤,該算法基于機(jī)車動(dòng)力學(xué)模型,聯(lián)合應(yīng)用了錯(cuò)誤反饋機(jī)制。他們通過理論分析證明了算法的可收斂性。Lixing Yang等人針對(duì)不確定性條件干擾下的實(shí)時(shí)機(jī)車操控系統(tǒng)的實(shí)現(xiàn),基于專家學(xué)習(xí)提出了兩個(gè)RTO算法和一個(gè)在線學(xué)習(xí)算法,算法考慮了不確定性條件的干擾,滿足了多目標(biāo)的要求。Jia TengYin等人在現(xiàn)有的ATO算法基礎(chǔ)上加入了基于數(shù)據(jù)挖掘算法和專家學(xué)習(xí)以及啟發(fā)式的機(jī)車停站算法(HSA),形成了優(yōu)化的STO算法。這些研究在一定程度上借助了人工駕駛經(jīng)驗(yàn),通過專家系統(tǒng)輔以機(jī)器學(xué)習(xí)等方式實(shí)現(xiàn)機(jī)車優(yōu)化操縱,但仍存在人工參與度過大且難以保證優(yōu)化效果。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)的發(fā)展也引起了機(jī)器學(xué)習(xí)領(lǐng)域的巨大轟動(dòng)。以DeepMind團(tuán)隊(duì)為代表的研究團(tuán)隊(duì)首次提出基于DQN(Deep Q-Network)的深度強(qiáng)化學(xué)習(xí)方法,并使用Atari 2600部分游戲作為測(cè)試對(duì)象,結(jié)果可以超過人類玩家。該機(jī)器學(xué)習(xí)技術(shù)上的突破隨后在Nature期刊上進(jìn)行發(fā)表,引起了機(jī)器學(xué)習(xí)研究領(lǐng)域的巨大轟動(dòng)。該理論發(fā)展過程最早可以追溯到2010年Lange做的相關(guān)工作,他提出了Deep auto-encoder用于基于視覺的相關(guān)控制。2011年Cuccu等人和Abtahi等人均在相關(guān)方面作了研究,其中,Abtahi提出了用DBN代替?zhèn)鹘y(tǒng)強(qiáng)化學(xué)習(xí)中的逼近器的方法,這和深度強(qiáng)化學(xué)習(xí)的思想已非常接近。2012年,Lange進(jìn)一步開始做應(yīng)用,提出了Deep Fitted Q學(xué)習(xí)用于車輛控制。2013年,Deep Mind團(tuán)隊(duì)在NIPS上發(fā)表了他們的文章,將卷積神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)結(jié)合起來,以原始圖像數(shù)據(jù)作為輸入,以每個(gè)動(dòng)作的Value Function作為輸出,并通過Atari 2600游戲作為測(cè)試,發(fā)現(xiàn)該方法測(cè)試的7個(gè)游戲中有6個(gè)超過了人類水平。之后DeepMind團(tuán)隊(duì)在Nature上發(fā)表了改進(jìn)版的DQN文章,引起人們的廣泛關(guān)注。試驗(yàn)表明該方法較為適用于類似游戲、機(jī)車操縱等優(yōu)化序列控制過程,對(duì)鐵路機(jī)車優(yōu)化操縱提供了新的思路和機(jī)遇。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué);中車信息技術(shù)有限公司;中車大連機(jī)車研究所有限公司,未經(jīng)清華大學(xué);中車信息技術(shù)有限公司;中車大連機(jī)車研究所有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710045758.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:鋁箔熱壓貼萬用模具
- 下一篇:真空助力器前后殼體鉚合裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





