[發(fā)明專利]一種基于多目標(biāo)Sarsa學(xué)習(xí)的動態(tài)路徑誘導(dǎo)方法有效
| 申請?zhí)枺?/td> | 201810992284.5 | 申請日: | 2018-08-29 |
| 公開(公告)號: | CN109269516B | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設(shè)計)人: | 文峰;封筱 | 申請(專利權(quán))人: | 沈陽理工大學(xué) |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34;G06Q10/04;G06Q50/30 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110159 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多目標(biāo) sarsa 學(xué)習(xí) 動態(tài) 路徑 誘導(dǎo) 方法 | ||
本發(fā)明提出一種基于多目標(biāo)Sarsa學(xué)習(xí)的動態(tài)路徑誘導(dǎo)方法,流程包括:信息初始化;信息更新;誘導(dǎo)路徑計算,包括Q矢量表歸一化,計算基于駕駛者偏好的標(biāo)量值,計算Boltzmann概率分布,通過輪盤賭方法為駕駛者選擇符合其個人偏好的下一行駛路段,直到駕駛者車輛達(dá)到目的地。根據(jù)當(dāng)前交通系統(tǒng)的交通狀況,優(yōu)化車輛的行駛路徑,提高交通系統(tǒng)效率,緩解交通擁堵狀況。從實際角度出發(fā),同時進(jìn)行多誘導(dǎo)目標(biāo)的動態(tài)路徑誘導(dǎo),更為符合實際生活中的誘導(dǎo)需求??紤]駕駛者誘導(dǎo)偏好,為駕駛者提供符合個人偏好的的動態(tài)誘導(dǎo)路徑,從而提高誘導(dǎo)路徑接受率,進(jìn)一步提高交通系統(tǒng)的通行效率,緩解交通擁堵狀況。
技術(shù)領(lǐng)域
本發(fā)明屬于智能交通技術(shù)領(lǐng)域,具體涉及一種基于多目標(biāo)Sarsa學(xué)習(xí)的動態(tài)路徑誘導(dǎo)方法。
背景技術(shù)
近些年,隨著我國社會經(jīng)濟(jì)的飛速發(fā)展,私人汽車保有量不斷攀升,隨之而來的城市交通壓力增大,城市交通擁擠、堵塞,交通事故頻發(fā)等問題亦是日益嚴(yán)重。此外,駕駛者作為交通系統(tǒng)中的重要參與者,在一段旅程中往往同時具有多個誘導(dǎo)目標(biāo)并對不同的目標(biāo)有不同的偏好。是否考慮駕駛者個人偏好會對誘導(dǎo)信息的接受程度產(chǎn)生很大的影響從而影響交通系統(tǒng)的通行效率。因此,從緩解交通擁堵,滿足駕駛者個人偏好的角度出發(fā),實現(xiàn)高效、動態(tài)的路徑誘導(dǎo)是非常有必要的。
強化學(xué)習(xí)具有很強的自適應(yīng)性和自學(xué)習(xí)能力,不需要先驗知識和建模,就可以隨著系統(tǒng)環(huán)境的變化不斷調(diào)整自身的控制策略,利用系統(tǒng)的動態(tài)信息進(jìn)行學(xué)習(xí),滿足對高隨機性、復(fù)雜性的交通誘導(dǎo)系統(tǒng)的控制要求。Sarsa學(xué)習(xí)作為一種on-policy學(xué)習(xí)的強化學(xué)習(xí)算法尤為適用于復(fù)雜多變,實時性強的交通誘導(dǎo)系統(tǒng)中最優(yōu)路徑的搜索與車輛的動態(tài)誘導(dǎo)。
目前提出的路徑誘導(dǎo)模型和誘導(dǎo)算法大多是僅針對路段行程時間構(gòu)建的單目標(biāo)路徑誘導(dǎo)方法,忽略了實際生活中的誘導(dǎo)需求以及駕駛者的個人偏好。多目標(biāo)強化學(xué)習(xí)常被用來解決此類多目標(biāo)優(yōu)化問題,求解多目標(biāo)強化學(xué)習(xí)最優(yōu)解集的方法主要分為單策略方法和多策略方法。然而相比于單策略方法,多策略方法在每次與環(huán)境交互時都會學(xué)習(xí)一系列最優(yōu)解的集合去逼近Pareto前沿,此過程需要大量計算時間,對應(yīng)計算量也非常大。并且在on-policy學(xué)習(xí)中使用多策略方法,對應(yīng)解集的計算量和存儲所需的大量時間都使此種方法不適用于動態(tài)路徑誘導(dǎo)系統(tǒng)。因此,單策略多目標(biāo)Sarsa學(xué)習(xí),適用于解決在包含多誘導(dǎo)目標(biāo)基礎(chǔ)上考慮駕駛者偏好的動態(tài)路徑誘導(dǎo)問題。
發(fā)明內(nèi)容
根據(jù)以上技術(shù)問題,本發(fā)明的目的是提供一種基于多目標(biāo)Sarsa學(xué)習(xí)的動態(tài)路徑誘導(dǎo)方法。充分利用實時交通數(shù)據(jù)信息與駕駛者個人偏好信息,在為駕駛者提供依據(jù)個人偏好的路徑誘導(dǎo)信息的同時,協(xié)調(diào)整體交通系統(tǒng)通行,緩解交通擁堵,提高交通系統(tǒng)通行效率。
采用的技術(shù)方案是:一種基于多目標(biāo)Sarsa學(xué)習(xí)的動態(tài)路徑誘導(dǎo)方法包括步驟1~步驟3:
步驟1:信息初始化,具體包括步驟1.1~步驟1.3:
步驟1.1:確認(rèn)誘導(dǎo)目標(biāo):包括選擇最小化旅行時間、最小化旅行距離和最小化花費,一種或者幾種;;
步驟1.2:針對誘導(dǎo)目標(biāo),交通信息中心使用基于Q值的動態(tài)規(guī)劃算法并根據(jù)地理信息庫中路網(wǎng)信息,以及歷史采集到的各路段靜態(tài)數(shù)據(jù)來初始化路網(wǎng)上各個誘導(dǎo)目標(biāo)對應(yīng)待選擇終點的Q矢量表,且一個Q矢量表對應(yīng)一個待選擇的終點;
步驟1.3:設(shè)置交通信息中心發(fā)布的Q值信息更新時間間隔T;
所述路網(wǎng)信息包括:路網(wǎng)拓?fù)浣Y(jié)構(gòu)、道路長度、車道數(shù);
所述各路段靜態(tài)數(shù)據(jù)包括:歷史車輛通行時間、距離、花費;
步驟2:信息更新,具體包括:定義誘導(dǎo)目標(biāo)權(quán)重、當(dāng)前路網(wǎng)交通擁堵系數(shù)計算和每隔T時刻,用Sarsa學(xué)習(xí)方法更新Q矢量表:
(1)定義誘導(dǎo)目標(biāo)權(quán)重:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽理工大學(xué),未經(jīng)沈陽理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810992284.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于實現(xiàn)多目標(biāo)方業(yè)務(wù)或操作的方法和裝置
- 基于智能視頻分析平臺的多目標(biāo)跟蹤方法及其系統(tǒng)
- 多目標(biāo)設(shè)計選擇方法和系統(tǒng)
- 一種針對多目標(biāo)的地面導(dǎo)航系統(tǒng)及其方法
- 一種無斷點多目標(biāo)信號合成方法
- 基于多智能體深度增強學(xué)習(xí)的多目標(biāo)跟蹤方法
- 一種多目標(biāo)跟蹤方法
- 一種航空紅外視頻多目標(biāo)檢測與跟蹤方法及裝置
- 一種多目標(biāo)推薦方法、多目標(biāo)推薦模型生成方法以及裝置
- 一種區(qū)域多目標(biāo)衛(wèi)星探測仿真方法及系統(tǒng)
- 一種基于Sarsa學(xué)習(xí)的中心式動態(tài)路徑誘導(dǎo)方法
- 一種基于Sarsa的SDN數(shù)據(jù)中心擁塞控制方法
- 一種基于Sarsa算法的人群疏散仿真方法及裝置
- 用于仿真足球機器人控球的控制方法
- 異構(gòu)蜂窩網(wǎng)絡(luò)中基于Sarsa學(xué)習(xí)的基站休眠方法
- 一種新的節(jié)點價值混合更新方法
- 基于SARSA的核動力系統(tǒng)蒸汽發(fā)生器水位控制方法
- 一種基于SARSA的變循環(huán)航空發(fā)動機推力控制方法
- 基于SARSA(λ)算法的風(fēng)電-抽蓄聯(lián)合系統(tǒng)日隨機動態(tài)調(diào)度方法
- 基于強化學(xué)習(xí)Sarsa算法的水聲協(xié)作通信路由方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





