[發明專利]交通信號控制方法、系統及介質在審
| 申請號: | 201911311519.0 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111091710A | 公開(公告)日: | 2020-05-01 |
| 發明(設計)人: | 薛貴榮;徐凱 | 申請(專利權)人: | 上海天壤智能科技有限公司 |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201100 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 交通信號 控制 方法 系統 介質 | ||
1.一種交通信號控制方法,其特征在于,包括:
數據生成步驟:生成專家數據;
網絡結構搭建步驟:構建行為策略評價網絡結構;
評價方法構造步驟:構造行為策略評價方法;
網絡損失函數構造步驟:構造行為策略損失函數;
獲取步驟:獲取到行為策略信息;
評價網絡損失函數構造步驟:構造評價網絡損失函數;
時序差分值獲取步驟:根據評價網絡損失函數,計算得到時序差分值;
行為更新步驟:根據時序差分值,對行為策略進行更新;
預測結果計算步驟:得到預測結果并運用到交通中。
2.根據權利要求1所述的交通信號控制方法,其特征在于,所述數據生成步驟包括:
根據自組織交通信號燈控制方法生成專家數據;
所述網絡結構搭建步驟包括:
搭建行為策略神經網絡結構,定義行為策略神經網絡結構中的網絡層類別及層的參數;
搭建評價神經網絡結構,定義評價神經網絡結構中的網絡層類別及層的參數;
行為策略評價網絡結構包括行為策略神經網絡結構和評價神經網絡結構;
行為策略神經網絡結構和評價神經網絡結構均有雙層全連接網絡結構,隱層神經單元數為20。
3.根據權利要求1所述的交通信號控制方法,其特征在于,所述評價方法構造步驟包括:
構造一個新的值函數,對值函數進行優化;得到一個新的優勢函數;
公式依次如下:
其中,Qπ和π分別由θQ和θπ決定,θπ為行為策略網絡參數,θQ為評價網絡參數;
s表示:狀態集合
a表示:動作決策集合;
st表示:t時刻的狀態集合。
4.根據權利要求3所述的交通信號控制方法,其特征在于,所述網絡損失函數構造步驟包括:
在離散的行為空間中,根據Gumbel-Softmax構建行為策略網絡損失函數;
公式如下:
asoft=softmax((gi+π)/τ))
lactor(θπ)=Cross-Entropy(asoft,aD)
其中,g=-log(-log(u)),u~Uniform(0,1),aD是demos的行為;
asoft表示:經過softmax函數處理的動作決策概率;
gi表示:i時刻的g函數;
Cross-Entropy表示交叉商函數。
5.根據權利要求3所述的交通信號控制方法,其特征在于,所述獲取步驟包括:
根據行為策略神經網絡結構中的網絡層類別及層的參數,計算得到softmax值;
所述評價網絡損失函數構造步驟包括:
評價網絡使用行為克隆損失函數包括:1-step時序差分損失、n步時序差分損失、大余量分類損失和L2損失。
6.根據權利要求5所述的交通信號控制方法,其特征在于,所述評價網絡損失函數中的1-step時序差分損失如下:
y=R(s,a)+γQ(s′,a′)
其中,s'為下一個狀態,由環境采取行動a和下一個行動a'決定,關系為a'~π(a|s');
梯度為:
y表示:算法模型計算出的此時刻的動作決策的獎勵值;
γ表示:獎勵的折算系數;
R(s,a)表示:獎勵函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海天壤智能科技有限公司,未經上海天壤智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911311519.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動化擺動式搬運機
- 下一篇:一種抗泥型聚羧酸系減水劑及其制備方法和應用





