[發(fā)明專利]一種基于強化學習的智能自動駕駛控制方法有效
| 申請?zhí)枺?/td> | 202110763054.3 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113359771B | 公開(公告)日: | 2022-09-30 |
| 發(fā)明(設計)人: | 顏宇;王廣瑋 | 申請(專利權)人: | 貴州大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京博海嘉知識產權代理事務所(普通合伙) 16007 | 代理人: | 郝彥東 |
| 地址: | 55000*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 智能 自動 駕駛 控制 方法 | ||
本發(fā)明屬于自動駕駛控制方法技術領域,具體涉及一種基于強化學習的智能自動駕駛控制方法,通過使用開源的物理引擎PyBullet建立模擬環(huán)境,設計以圈速為評價標準的自動駕駛賽車任務,完成一圈賽道的自動駕駛,并且不發(fā)生任何碰撞,建立一個基于URDF模型的剛體汽車模型,并利用汽車模型模擬激光雷達的輸入;將設計的任務轉化為一個部分可觀測的馬爾可夫決策過程;基于python語言,利用Tensorflow框架,建立Dreamer算法模型;對輸入的激光雷達信息進行預處理等處理過程,實現(xiàn)自動駕駛算法的快速訓練,不需要設計復雜的控制策略和調試控制參數(shù),且具有良好的泛化性和遷移性,可以適應不同的模擬與現(xiàn)實環(huán)境,有良好的自動駕駛效果。
技術領域
本發(fā)明涉及自動駕駛控制方法技術領域,具體領域為一種基于強化學習的智能自動駕駛控制方法。
背景技術
汽車工業(yè)朝著共享化、電動化、網聯(lián)化、智能化的方向快速發(fā)展,人工智能技術在智能駕駛方向表現(xiàn)出了極大的價值與潛力,其中,深度強化學習(deep reinforcementlearning,DRL)算法可以使智能體不斷學習和表示環(huán)境的狀態(tài),并在每個給定的時刻給出當前最佳的行動方案,這也促使了智能自動駕駛汽車技術的發(fā)展,自動駕駛汽車又稱無人駕駛汽車,是一種通過自動駕駛系統(tǒng)實現(xiàn)無人駕駛的智能汽車,在21世紀初已經呈現(xiàn)出接近實用化的趨勢。自動駕駛汽車依靠人工智能、視覺計算、雷達、監(jiān)控裝置和全球定位系統(tǒng)協(xié)同合作,讓汽車可以在沒有任何人類主動的操作下,自動安全地操作機動車輛。然而現(xiàn)有的自動駕駛控制方法具有策略制定復雜、控制參數(shù)調試繁瑣及環(huán)境適應性差的問題,為此提出一種基于強化學習的智能自動駕駛控制方法。
發(fā)明內容
本發(fā)明的目的在于提供一種基于強化學習的智能自動駕駛控制方法以解決上述背景技術中提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種基于強化學習的智能自動駕駛控制方法,其方法包括如下步驟:
S1:使用開源的物理引擎PyBullet建立模擬環(huán)境,設計以圈速為評價標準的自動駕駛賽車任務,完成一圈賽道的自動駕駛,并且不發(fā)生任何碰撞,建立一個基于URDF模型的剛體汽車模型,并利用汽車模型模擬激光雷達的輸入;
S2:將設計的任務轉化為一個部分可觀測的馬爾可夫決策過程;
S3:基于python語言,利用Tensorflow框架,建立Dreamer算法模型;
S4:對輸入的激光雷達信息進行預處理,使用處理后的激光雷達點云距離信息作為觀測模型,觀測模型使用多層感知器,計算每條激光射線高斯分布的平均值和標準差,通過觀測模型學習基于潛在想象空間的狀態(tài)序列的策略,進而利用演員-評論家算法訓練智能體,其中,動作模型用來綜合每個潛在狀態(tài)對應的最佳動作,價值模型則用來評估每個潛在狀態(tài)對應的價值:
動作模型:qφ(at|st)
價值模型:qψ(vt|st)
S5:對地圖做預處理,首先將地圖柵格化,接著將地圖上各個位置與起點之間距離標準化,每個位置得到的進度便是賽車已經行駛的距離與賽道總長度的比值,設計如下獎勵函數(shù):
c*|st-st-1|=c*Δst
其中,st代表在t時刻車輛行駛的進度,c是常數(shù);如果車輛與賽道邊緣或障礙物發(fā)生碰撞,會得到-1的懲罰值,同時當前回合也會終止;
S6:在智能體每個訓練回合的開始階段,將賽車隨機放置在賽道上,將每個動作都會被重復數(shù)次,訓練結束后,將賽車放在賽道的起點位置,進行算法的評估,上述過程多次循環(huán)后,有效提高評估潛在環(huán)境和提高動作的有效性訓練結束,得到最終的訓練結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學,未經貴州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110763054.3/2.html,轉載請聲明來源鉆瓜專利網。





