[發(fā)明專利]基于近似策略迭代的自適應(yīng)巡航控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310328571.3 | 申請(qǐng)日: | 2013-07-31 |
| 公開(公告)號(hào): | CN103381826A | 公開(公告)日: | 2013-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 徐昕;王健;孫振平;安向京;郭琦 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué) |
| 主分類號(hào): | B60W30/14 | 分類號(hào): | B60W30/14;G06F19/00 |
| 代理公司: | 湖南兆弘專利事務(wù)所 43008 | 代理人: | 周長(zhǎng)清 |
| 地址: | 410073 湖南省長(zhǎng)沙市硯瓦池正街47號(hào)中國(guó)*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 近似 策略 自適應(yīng) 巡航 控制 方法 | ||
1.一種基于近似策略迭代的自適應(yīng)巡航控制方法,其特征在于,步驟為:
(1)采集樣本;
(2)使用近似策略迭代算法在樣本上學(xué)習(xí),得到一個(gè)近似最優(yōu)策略;
(3)在巡航控制中在線優(yōu)化PI控制器參數(shù),即采用上述近似最優(yōu)策略以數(shù)據(jù)驅(qū)動(dòng)的方式去在線優(yōu)化PI控制器的參數(shù),使巡航控制達(dá)到期望的性能。
2.根據(jù)權(quán)利要求1所述的基于近似策略迭代的自適應(yīng)巡航控制方法,其特征在于,所述步驟(1)的具體流程為:
(1.1)輸入:Nstep,該采樣周期中最大的采樣步數(shù);ε,隨機(jī)的動(dòng)作選擇策略被執(zhí)行的概率;π,基于主動(dòng)學(xué)習(xí)的動(dòng)作選擇策略;
(1.2)初始化:D={},樣本集合;s,初始狀態(tài);nstep=0,當(dāng)前的樣本采集步數(shù);
(1.3)樣本采集:
ε0,在區(qū)間[0,1]上均勻隨機(jī)地抽取的隨機(jī)數(shù);
a,如果ε0<ε,執(zhí)行基于主動(dòng)學(xué)習(xí)的動(dòng)作選擇策略;否則,執(zhí)行基于主動(dòng)學(xué)習(xí)的動(dòng)作選擇策略π;
(s,a,s’,r),通過(guò)在環(huán)境中執(zhí)行動(dòng)作a獲得的樣本,(s,a,s’,r)表示系統(tǒng)在某一時(shí)刻的狀態(tài)為s,執(zhí)行動(dòng)作a后進(jìn)入下一個(gè)狀態(tài)s’,同時(shí)得到一個(gè)即時(shí)回報(bào)r;
D=D∪(s,a,s’,r);
nstep=nstep+1,當(dāng)前的樣本采集步數(shù);如果nstep<Nstep并且狀態(tài)s’不是吸收態(tài),s=s’,返回重新執(zhí)行步驟(1.3);
(1.4)返回采集到的樣本集合D。
3.根據(jù)權(quán)利要求1所述的基于近似策略迭代的自適應(yīng)巡航控制方法,其特征在于,所述步驟(2)是通過(guò)執(zhí)行器采用一個(gè)近似最優(yōu)策略根據(jù)當(dāng)前的狀態(tài)估計(jì)每一個(gè)候選動(dòng)作的性能,具體步驟為:
(2.1)巡航控制的MDP模型可定義為:一個(gè)馬爾科夫決策過(guò)程用一個(gè)五元組來(lái)表示:(S,A,P,R,γ),其中,S是有限的狀態(tài)集,A是有限的動(dòng)作集,P是狀態(tài)概率轉(zhuǎn)移模型,R是回報(bào)函數(shù),γ∈[0,1)是折扣因子;一個(gè)MDP的策略π是狀態(tài)到動(dòng)作的映射,其中,Ω(A)表示動(dòng)作轉(zhuǎn)移概率的集合;
一個(gè)策略π的狀態(tài)-動(dòng)作值函數(shù)定義為:
對(duì)所有的狀態(tài)-動(dòng)作對(duì)(s,a),動(dòng)作值函數(shù)Qπ(s,a)必須滿足貝爾曼方程:
其中,π(s',a')表示在當(dāng)前狀態(tài)s下選擇動(dòng)作a進(jìn)入下一個(gè)狀態(tài)s’后選擇下一個(gè)動(dòng)作a'的概率;寫成矩陣形式,可以表示為:
Qπ=R+γΡΠπQπ
(I-γΡΠπ)Qπ=R
對(duì)一個(gè)確定性的策略集合,存在一個(gè)最優(yōu)策略π*,使得對(duì)每一個(gè)狀態(tài)-動(dòng)作的回報(bào)值Qπ最大:
當(dāng)求出最優(yōu)值函數(shù)Q*(s,a)時(shí),最優(yōu)策略通過(guò)下式得到:
(2.2)MDP的狀態(tài)和動(dòng)作集合;根據(jù)狀態(tài)和動(dòng)作的定義,策略可以描述為:當(dāng)車輛的速度和加速度為vc和ac、車輛的速度離期望速度還有Δv時(shí),車輛到達(dá)期望速度所需要的最優(yōu)系數(shù);
(2.3)回報(bào)函數(shù);
先利用一個(gè)樣條函數(shù)來(lái)平滑車輛的加速、減速過(guò)程,稱作目標(biāo)曲線;用上述樣條函數(shù)來(lái)定義動(dòng)態(tài)過(guò)程,學(xué)習(xí)的目標(biāo)就是使控制器能將車速的變化控制得像該樣條函數(shù)一樣;樣條函數(shù)如下式所示:
其中,ci(i=0,1,…7)是多項(xiàng)式的系數(shù);
定義好了學(xué)習(xí)目標(biāo)以后,回報(bào)函數(shù)定義如下:
(2.4)近似策略迭代學(xué)習(xí)算法;第一個(gè)步驟是利用基于近似線性相關(guān)的核稀疏化過(guò)程來(lái)得到一個(gè)核詞典;第二個(gè)是利用貪婪策略和得到的核詞典通過(guò)迭代得到一個(gè)近似最優(yōu)策略π*。
4.根據(jù)權(quán)利要求1所述的基于近似策略迭代的自適應(yīng)巡航控制方法,其特征在于,所述步驟(3)通過(guò)把近似策略迭代算法與PI控制器相結(jié)合,形成自學(xué)習(xí)巡航控制器;該控制器由一個(gè)PI控制器和一個(gè)執(zhí)行器組成,其中,執(zhí)行器由值函數(shù)、策略改進(jìn)和系數(shù)調(diào)整三個(gè)模塊組成;KP和KI分別為PI控制器的比例系數(shù)和積分系數(shù),vc和ac表示車當(dāng)前的實(shí)際速度和加速度,vd是給出的期望速度,Δv是實(shí)際速度與期望速度的差,u是油門剎車命令;值函數(shù)模塊根據(jù)當(dāng)前車的實(shí)際速度、加速度和速度誤差來(lái)計(jì)算每一個(gè)(KP,KI)向量的回報(bào)值,然后策略改進(jìn)模塊根據(jù)每一個(gè)(KP,KI)向量的回報(bào)值選出一個(gè)回報(bào)值最大的(KP,KI)向量,最后系數(shù)調(diào)整模塊將PI控制器原來(lái)的系數(shù)替換成當(dāng)前選出的最優(yōu)系數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310328571.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽(tīng)系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無(wú)損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





