[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測方法有效
| 申請?zhí)枺?/td> | 201910653135.0 | 申請日: | 2019-07-19 |
| 公開(公告)號: | CN110299008B | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設(shè)計)人: | 劉志;沈陽;楊曦;沈國江 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01;G06Q10/04;G06Q50/26;G06N3/04;G06N3/08 |
| 代理公司: | 杭州之江專利事務(wù)所(普通合伙) 33216 | 代理人: | 張慧英 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 通流 預(yù)測 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測方法,其特征在于,包括如下步驟:
(1)對原始交通數(shù)據(jù)的篩選與統(tǒng)計,得到特定路段的速度數(shù)據(jù)以及該路段兩端交叉口的流量數(shù)據(jù);并對數(shù)據(jù)進(jìn)行預(yù)處理,包括補(bǔ)齊缺失數(shù)據(jù)、處理錯誤數(shù)據(jù)和數(shù)據(jù)歸一化;
(2)利用強(qiáng)化學(xué)習(xí)中的DDPG結(jié)構(gòu)建立基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測模型,將強(qiáng)化學(xué)習(xí)中三要素映射到交通流多步預(yù)測任務(wù)中,并確定該模型中智能體與環(huán)境在交通流多步預(yù)測任務(wù)中的交互內(nèi)容;其中三要素為狀態(tài)、動作、回報;所述建立的基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測模型中,定義交通流的時序數(shù)據(jù)x1,x2,...,xn為智能體所觀察的狀態(tài)s,其中n是觀察狀態(tài)的窗口大小,n越大,智能體一次性觀察的數(shù)據(jù)越多;定義智能體對下一時刻交通流的預(yù)測為智能體輸出的動作a;定義交通流的預(yù)測值與其真實(shí)值y誤差平方的相反數(shù)為智能體從環(huán)境中得到的回報r,回報r表明預(yù)測誤差越大,智能體所獲得的回報越小:
多步預(yù)測任務(wù)中所對應(yīng)的累計回報的計算式如下:
其中,γ∈[0,1]是未來回報的折扣率,用于權(quán)衡當(dāng)前回報和長遠(yuǎn)回報的關(guān)系,取值越大,越注重長遠(yuǎn)回報,反之則越注重當(dāng)前回報;當(dāng)所得累計回報期望最大時,就是多步預(yù)測整體誤差期望的最小值;
(3)基于預(yù)處理好的數(shù)據(jù)訓(xùn)練建立得到的交通流多步預(yù)測模型,調(diào)整模型中的參數(shù)以獲得最優(yōu)的交通流多步預(yù)測效果;其中在所述步驟(3)中,對交通流多步預(yù)測模型中的諸多可調(diào)參數(shù)進(jìn)行調(diào)優(yōu)以獲得最優(yōu)的預(yù)測模型,其中參數(shù)包括網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和學(xué)習(xí)算法參數(shù),通過學(xué)習(xí)獲得的最終優(yōu)化參數(shù)為:actor學(xué)習(xí)速率為1e-5;critic學(xué)習(xí)速率為1e-4;target網(wǎng)絡(luò)更新速率為1e-3;每批學(xué)習(xí)數(shù)據(jù)數(shù)目為100;智能體記憶大小為10000;貝爾曼公式參數(shù)為0.85;智能體中的神經(jīng)網(wǎng)絡(luò)模型采用卷積神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)共有五層‘第一層是8個1×3的卷積核,第二層是8個3×3,第三層是64個神經(jīng)元組成的全連接層,第四層是32個神經(jīng)元組成的全連接層,第五層是網(wǎng)絡(luò)的輸出層,包含三個神經(jīng)元。
2.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測方法,其特征在于:在所述步驟(1)中,對原始交通數(shù)據(jù)進(jìn)行篩選與統(tǒng)計,得到指定路段的以5分鐘為周期的平均速度數(shù)據(jù),并篩選得到該路段兩端交叉口以5分鐘為周期的流量數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測方法,其特征在于:在所述步驟(1)中,利用交通流的時間相關(guān)性,對缺失數(shù)據(jù)進(jìn)行處理,采用平均值法修補(bǔ)缺失數(shù)據(jù),修補(bǔ)公式如下式所示:
其中,x(t)是需要補(bǔ)全的缺失數(shù)據(jù),k是相鄰數(shù)據(jù)總數(shù)。
4.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測方法,其特征在于:在所述步驟(1)中,利用深度學(xué)習(xí)中用于防止模型過擬合的正則化方法來處理錯誤數(shù)據(jù),通過在訓(xùn)練的目標(biāo)函數(shù)中加入L1懲罰項來降低神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜程度,從而自動地降低其對噪聲數(shù)據(jù)的關(guān)心程度。
5.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的交通流多步預(yù)測方法,其特征在于:在所述步驟(1)中,對數(shù)據(jù)進(jìn)行歸一化處理的公式如下式所示:
其中,min(x)是歷史數(shù)據(jù)中的最小值,max(x)是歷史數(shù)據(jù)中的最大值;通過線性歸一化后可以使數(shù)據(jù)較為均勻地分布在[0,1]之間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910653135.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





