[發(fā)明專利]基于近似策略迭代的自適應(yīng)巡航控制方法有效

申請(qǐng)?zhí)枺?/td>	201310328571.3	申請(qǐng)日：	2013-07-31
公開（公告）號(hào)：	CN103381826A	公開（公告）日：	2013-11-06
發(fā)明（設(shè)計(jì)）人：	徐昕;王健;孫振平;安向京;郭琦	申請(qǐng)（專利權(quán)）人：	中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)
主分類號(hào)：	B60W30/14	分類號(hào)：	B60W30/14;G06F19/00
代理公司：	湖南兆弘專利事務(wù)所 43008	代理人：	周長(zhǎng)清
地址：	410073 湖南省長(zhǎng)沙市硯瓦池正街47號(hào)中國(guó)***	國(guó)省代碼：	湖南;43
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于近似策略自適應(yīng) 巡航控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于近似策略迭代的自適應(yīng)巡航控制方法，其特征在于，步驟為：

（1）采集樣本；

（2）使用近似策略迭代算法在樣本上學(xué)習(xí)，得到一個(gè)近似最優(yōu)策略；

（3）在巡航控制中在線優(yōu)化PI控制器參數(shù)，即采用上述近似最優(yōu)策略以數(shù)據(jù)驅(qū)動(dòng)的方式去在線優(yōu)化PI控制器的參數(shù)，使巡航控制達(dá)到期望的性能。

2.根據(jù)權(quán)利要求1所述的基于近似策略迭代的自適應(yīng)巡航控制方法，其特征在于，所述步驟（1）的具體流程為：

（1.1）輸入：N_step，該采樣周期中最大的采樣步數(shù)；ε，隨機(jī)的動(dòng)作選擇策略被執(zhí)行的概率；π，基于主動(dòng)學(xué)習(xí)的動(dòng)作選擇策略；

（1.2）初始化：D={}，樣本集合；s，初始狀態(tài)；n_step=0，當(dāng)前的樣本采集步數(shù)；

（1.3）樣本采集：

ε₀，在區(qū)間[0,1]上均勻隨機(jī)地抽取的隨機(jī)數(shù)；

a，如果ε₀<ε，執(zhí)行基于主動(dòng)學(xué)習(xí)的動(dòng)作選擇策略；否則，執(zhí)行基于主動(dòng)學(xué)習(xí)的動(dòng)作選擇策略π；

(s,a,s’,r)，通過(guò)在環(huán)境中執(zhí)行動(dòng)作a獲得的樣本，(s,a,s’,r)表示系統(tǒng)在某一時(shí)刻的狀態(tài)為s，執(zhí)行動(dòng)作a后進(jìn)入下一個(gè)狀態(tài)s’，同時(shí)得到一個(gè)即時(shí)回報(bào)r；

D=D∪(s,a,s’,r)；

n_step=n_step+1，當(dāng)前的樣本采集步數(shù)；如果n_step<N_step并且狀態(tài)s’不是吸收態(tài)，s=s’，返回重新執(zhí)行步驟（1.3）；

（1.4）返回采集到的樣本集合D。

3.根據(jù)權(quán)利要求1所述的基于近似策略迭代的自適應(yīng)巡航控制方法，其特征在于，所述步驟（2）是通過(guò)執(zhí)行器采用一個(gè)近似最優(yōu)策略根據(jù)當(dāng)前的狀態(tài)估計(jì)每一個(gè)候選動(dòng)作的性能，具體步驟為：

（2.1）巡航控制的MDP模型可定義為：一個(gè)馬爾科夫決策過(guò)程用一個(gè)五元組來(lái)表示：(S,A,P,R,γ)，其中，S是有限的狀態(tài)集，A是有限的動(dòng)作集，P是狀態(tài)概率轉(zhuǎn)移模型，R是回報(bào)函數(shù)，γ∈[0,1)是折扣因子；一個(gè)MDP的策略π是狀態(tài)到動(dòng)作的映射，其中，Ω(A)表示動(dòng)作轉(zhuǎn)移概率的集合；

一個(gè)策略π的狀態(tài)-動(dòng)作值函數(shù)定義為：

Qπ(s,a)=Eπ{Σt=0∞γtrt|s0=s,a0=a}]]>

對(duì)所有的狀態(tài)-動(dòng)作對(duì)(s,a)，動(dòng)作值函數(shù)Q^π(s,a)必須滿足貝爾曼方程：

Qπ(s,a)=R(s,a)+γΣs′∈SP(s,a,s′)Σa′∈Aπ(s′,a′)Qπ(s′,a′)]]>

其中，π(s',a')表示在當(dāng)前狀態(tài)s下選擇動(dòng)作a進(jìn)入下一個(gè)狀態(tài)s’后選擇下一個(gè)動(dòng)作a'的概率；寫成矩陣形式，可以表示為：

Q^π=R+γΡΠ_πQ^π

(I-γΡΠ_π)Q^π=R

對(duì)一個(gè)確定性的策略集合，存在一個(gè)最優(yōu)策略π^*，使得對(duì)每一個(gè)狀態(tài)-動(dòng)作的回報(bào)值Q^π最大：

Q*(s,a)=maxπQπ(s,a)]]>

當(dāng)求出最優(yōu)值函數(shù)Q*(s,a)時(shí)，最優(yōu)策略通過(guò)下式得到：

π*=argmaxaQπ(s,a);]]>

（2.2）MDP的狀態(tài)和動(dòng)作集合；根據(jù)狀態(tài)和動(dòng)作的定義，策略可以描述為：當(dāng)車輛的速度和加速度為v_c和a_c、車輛的速度離期望速度還有Δv時(shí)，車輛到達(dá)期望速度所需要的最優(yōu)系數(shù)；

（2.3）回報(bào)函數(shù)；

先利用一個(gè)樣條函數(shù)來(lái)平滑車輛的加速、減速過(guò)程，稱作目標(biāo)曲線；用上述樣條函數(shù)來(lái)定義動(dòng)態(tài)過(guò)程，學(xué)習(xí)的目標(biāo)就是使控制器能將車速的變化控制得像該樣條函數(shù)一樣；樣條函數(shù)如下式所示：

v0(t)=c0+c1t+c2t2,t0≤t≤t1v1(t)=c3+c4t,t1≤t≤t2v2(t)=c5+c6t+c7t2,t2≤t≤t3,]]>

其中，c_i(i=0,1,…7)是多項(xiàng)式的系數(shù)；

定義好了學(xué)習(xí)目標(biāo)以后，回報(bào)函數(shù)定義如下：

r=0,|vc-vt|≤0.03,|ac-at|≤0.02-|vc-vt|,|vc-vt|>0.03,|ac-at|≤0.02;-2|ac-at|,|vc-vt|≤0.03,|ac-vt|>0.02-|vc-vt|-2|ac-at|,|vc-vt|>0.03,|ac-at|>0.02]]>

（2.4）近似策略迭代學(xué)習(xí)算法；第一個(gè)步驟是利用基于近似線性相關(guān)的核稀疏化過(guò)程來(lái)得到一個(gè)核詞典；第二個(gè)是利用貪婪策略和得到的核詞典通過(guò)迭代得到一個(gè)近似最優(yōu)策略π^*。

4.根據(jù)權(quán)利要求1所述的基于近似策略迭代的自適應(yīng)巡航控制方法，其特征在于，所述步驟（3）通過(guò)把近似策略迭代算法與PI控制器相結(jié)合，形成自學(xué)習(xí)巡航控制器；該控制器由一個(gè)PI控制器和一個(gè)執(zhí)行器組成，其中，執(zhí)行器由值函數(shù)、策略改進(jìn)和系數(shù)調(diào)整三個(gè)模塊組成；K_P和K_I分別為PI控制器的比例系數(shù)和積分系數(shù)，v_c和a_c表示車當(dāng)前的實(shí)際速度和加速度，v_d是給出的期望速度，Δv是實(shí)際速度與期望速度的差，u是油門剎車命令；值函數(shù)模塊根據(jù)當(dāng)前車的實(shí)際速度、加速度和速度誤差來(lái)計(jì)算每一個(gè)（K_P，K_I）向量的回報(bào)值，然后策略改進(jìn)模塊根據(jù)每一個(gè)（K_P，K_I）向量的回報(bào)值選出一個(gè)回報(bào)值最大的（K_P，K_I）向量，最后系數(shù)調(diào)整模塊將PI控制器原來(lái)的系數(shù)替換成當(dāng)前選出的最優(yōu)系數(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)，未經(jīng)中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310328571.3/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：移動(dòng)式高壓測(cè)試設(shè)備
下一篇：高精度重卡倒車控制系統(tǒng)

同類專利

專利分類

B 作業(yè)；運(yùn)輸

B60 一般車輛
B60W 不同類型或不同功能的車輛子系統(tǒng)的聯(lián)合控制；專門適用于混合動(dòng)力車輛的控制系統(tǒng)；不與某一特定子系統(tǒng)的控制相關(guān)聯(lián)的道路車輛駕駛控制系統(tǒng)
B60W30-00 不與某一特定子系統(tǒng)的控制
B60W30-02 .車輛駕駛穩(wěn)定性的控制
B60W30-06 .用于駐車的自動(dòng)操作
B60W30-08 .預(yù)測(cè)或避免可能的或即將到來(lái)的碰撞的
B60W30-10 .路線保持
B60W30-14 .巡航控制

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】