[發(fā)明專利]一種融合Q算法和模糊化狀態(tài)劃分的自適應(yīng)巡航?jīng)Q策方法在審
| 申請?zhí)枺?/td> | 202310438432.X | 申請日: | 2023-04-23 |
| 公開(公告)號: | CN116279466A | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 尚靖皓;馮建偉;陳豪 | 申請(專利權(quán))人: | 中國人民武裝警察部隊工程大學 |
| 主分類號: | B60W30/14 | 分類號: | B60W30/14;B60W50/00 |
| 代理公司: | 西安賽博睿納專利代理事務(wù)所(普通合伙) 61236 | 代理人: | 孟學英 |
| 地址: | 710000 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 算法 模糊 狀態(tài) 劃分 自適應(yīng) 巡航 決策 方法 | ||
本發(fā)明提供一種融合Q算法和模糊化狀態(tài)劃分的自適應(yīng)巡航?jīng)Q策方法,包括以下步驟:步驟1,建立離散化的狀態(tài)變量模型;步驟2,建立模糊化變量模型;步驟3,初始化Q矩陣中的值,并設(shè)定學習率α,衰減率γ和獎勵值r;步驟4,計算適應(yīng)度μsubgt;i/subgt;(s),并選取具有最大適應(yīng)度μsubgt;k/subgt;(s)的狀態(tài);步驟5,選擇待執(zhí)行的動作b;步驟6,執(zhí)行動作b得到下一時刻狀態(tài)s′和獎勵值r;步驟7,計算置信度ωsubgt;j/subgt;并更新Q值;步驟8,將離散動作連續(xù)化;步驟9,判斷是否滿足自適應(yīng)巡航任務(wù)的停止條件,若滿足則自適應(yīng)巡航任務(wù)截止,若不滿足則再次進入計算適應(yīng)度步驟。本發(fā)明的方法解決了傳統(tǒng)算法因訓練樣本不足、采集不均衡導致效果不佳以及因矩陣的存儲空間有限而無法實施的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及無人車控制技術(shù)領(lǐng)域,具體涉及一種融合Q算法和模糊化狀態(tài)劃分的自適應(yīng)巡航?jīng)Q策方法。
背景技術(shù)
近年來人工智能系統(tǒng)越來越受到關(guān)注,并得到了廣泛的應(yīng)用。人工智能是融合了多種科學門類的新技術(shù),與大量技術(shù)領(lǐng)域有著交互。目前隨著芯片技術(shù)、計算機大數(shù)據(jù)技術(shù)、電池技術(shù)的高速發(fā)展,人工智能技術(shù)也得到了迅速提高,與它相關(guān)的產(chǎn)品和概念也逐漸融入到社會的各個領(lǐng)域。自動駕駛領(lǐng)域也不可避免的引入了人工智能的概念。在自動駕駛領(lǐng)域內(nèi)的智能自適應(yīng)巡航系統(tǒng)不僅能降低駕駛員的操作復雜度,也能更高效精準的完成駕駛?cè)蝿?wù),而這就要求具備較強的人工智能決策能力。
很多學者對自適應(yīng)巡航技術(shù)開展了大量的研究工作。例如,王澤寶以PID控制算法為基礎(chǔ),基于兩車之間相對速度的可變車頭間距策略,分析了其穩(wěn)定性,并據(jù)此設(shè)計了一種增量PID控制算法。劉道旭東也在PID控制算法框架下考慮了人腦的多元信息處理能力和強大的學習能力,將其與人工神經(jīng)網(wǎng)絡(luò)進行整合,提升車輛上層控制器的靈敏性和高效性,在諸多場景中體現(xiàn)出了良好的效果。陳崢峰和陳林林等人研究了PID控制策略,針對車輛的支流點擊的機械特性進行了性能提升和優(yōu)化,利用單片機產(chǎn)生PWM控制車輛電機,通過仿真實驗證明這個策略控制效果良好。
但是上述算法因缺少人工智能技術(shù)而缺乏自動推理及泛化能力,并且傳統(tǒng)機器學習算法的訓練效果強烈依賴訓練樣本,常常因為訓練樣本的數(shù)量不足、采集不均衡導致效果不佳。
此外,傳統(tǒng)Q-learning算法中以矩陣的形式來存儲狀態(tài)-行為值,在實際場景中,此存儲形式在很多情況下是不可行的,因為復雜場景中的狀態(tài)量太大,矩陣的存儲空間有限。
發(fā)明內(nèi)容
為解決傳統(tǒng)算法的訓練效果依賴訓練樣本,常常因為訓練樣本的數(shù)量不足、采集不均衡導致效果不佳的問題,以及傳統(tǒng)算法因為復雜場景中的狀態(tài)量太大,矩陣的存儲空間有限而無法實施的問題,本發(fā)明的目的在于提供一種融合Q-learning和模糊化狀態(tài)劃分的自適應(yīng)巡航?jīng)Q策方法。
該方法可以對智能體的“大腦”進行訓練,車輛可以在多種場景中進行試錯,自動的產(chǎn)生大量有效數(shù)據(jù),節(jié)省了大量的時間成本和人力成本,達到極強的擴充神經(jīng)網(wǎng)絡(luò)訓練樣本的效果,從而得到足夠的經(jīng)驗知識,通過不同狀態(tài)下得到的獎勵值,學習到哪些決策是好的哪些決策是不好的,該算法為傳統(tǒng)的機器學習算法補充了大量數(shù)據(jù),彌補了短板。
另外,本發(fā)明融合了模糊數(shù)學算法對狀態(tài)和動作空間進行維度壓縮,極大的節(jié)省了算法所需要的空間復雜度,提升了訓練速度。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下。
一種融合Q算法和模糊化狀態(tài)劃分的自適應(yīng)巡航?jīng)Q策方法,包括以下步驟:
步驟1,建立離散化的狀態(tài)變量模型;
步驟2,建立狀態(tài)和動作的模糊化變量模型;
步驟3,根據(jù)步驟2建立的模糊化變量模型,初始化Q矩陣中的值,并設(shè)定學習率α,衰減率γ和獎勵值r;
其中,其中,a為加速度,s為二維狀態(tài)量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民武裝警察部隊工程大學,未經(jīng)中國人民武裝警察部隊工程大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310438432.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





