[發明專利]一種限制性騎行路徑規劃裝置及方法有效
| 申請號: | 201910371140.2 | 申請日: | 2019-05-06 |
| 公開(公告)號: | CN110081897B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 王子赟;阮悅穎;張潔;陳悅林;葉小瑋;陸妍 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34;G06N3/08 |
| 代理公司: | 無錫華源專利商標事務所(普通合伙) 32228 | 代理人: | 聶啟新 |
| 地址: | 214122 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 限制性 行路 規劃 裝置 方法 | ||
1.一種限制性騎行路徑規劃方法,其特征在于,限制性騎行路徑規劃裝置包括:主機電路和從機電路,所述主機電路和所述從機電路通過無線通信連接;所述主機電路包括主機控制器、定位接收器、記錄設備,所述主機控制器分別與所述定位接收器和所述記錄設備連接;所述從機電路包括從機控制器、交互輸入設備、交互顯示設備,所述從機控制器分別與所述交互輸入設備和所述交互顯示設備連接;所述定位接收器用于定位幀數據中的經度數據和緯度數據,并對各個路徑點進行標記;所述記錄設備用于記錄和存儲位置數據;所述交互輸入設備用于輸入騎行目的地;所述交互顯示設備用于顯示用戶的實時位置和騎行路徑;
所述方法包括:
確定預定區域內的各個路徑點,所述路徑點為至少兩條道路的交匯點;
采集各個路徑點的經緯度數據,記錄各個路徑點的海拔高度,對每個路徑點預設風景評分,將每個路徑點的經緯度數據、海拔高度、風景評分對應存儲;
接收用戶選擇的起點和終點,對于每個行駛路段,獲取同時間段內GPS數據中其他騎行者的所有騎行路徑,確定出起點與終點之間的所有待選路徑集合,所述待選路徑集合包括有向路段集、每條待選路徑的最大海拔差集和每條待選路徑的綜合風景評分集;
接收用戶選擇的騎行模式,所述騎行模式包括最短距離模式、風景最優模式、鍛煉身體模式;
若用戶選擇的騎行模式為所述最短距離模式,則通過約束深度強化學習算法確定出對騎行模式對應的目標路徑,包括:
待選路徑集合W中包括所有路徑點組成的路徑點集E和有向路徑集A,用戶的起點位置ei為路徑點集E中的第i個路徑點,將用戶的起點位置ei的狀態特征表示為s(ei)=[xi,yi,xD,yD],xi表示起點的經度,yi表示起點的緯度,xD表示終點的經度,yD表示終點的緯度;起點位置ei到終點的騎行時間用Q(s(ei))表示,將起點位置ei的狀態特征s(ei)輸入BP神經網絡得到起點到終點的騎行時間Q(s(ei));
用戶在待選路徑集合G中所在路徑點ei+n∈E,ei+n表示在起點位置ei后的第n個路徑點,與起點位置ei相連接的所有路段ai,j組成起點位置ei的有向路徑集A(ei);獎勵函數r(ei,ai,i+1)表示用戶在起點位置ei選擇路段ai,i+1的騎行時間Q(s(ei));根據騎行經驗執行貪婪策略π和環境交互得到由所在路徑點、選擇的相鄰路段和騎行時間組成的求解:hi:k=ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek,ek表示終點之前所經過的最后一個路口,即路徑點集E中的第k個路徑點;
當完成一次求解,Q值發生更新,將求解中用戶在起點位置ei以及之后經過的每個路徑點表示為[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存儲于求解記憶P中;當每次完成成功求解時,計算成功求解中每個起點位置ei到終點位置的累積折減收益G(hi:k);定義節點記憶N={[s(ei),q(ei)|ei∈E,q(ei)=minG(hi:k)]},二元組s(ei),q(ei)存儲起點位置ei的狀態特征和起點到終點的最短騎行時間;
采用深度Q-learning算法,神經網路的訓練通過最小化起點位置ei到終點的最短騎行時間q(ei)和起點位置ei到終點的騎行時間估計值Q(s(ei))誤差平方和,即其中θ為神經網絡權重系數;
采用ε貪婪策略,以ε概率選擇當前最佳策略,1-ε概率隨機選擇策略,基于深度Q-learning算法,結合待選路徑集合W,選擇對應最短距離模式的路徑,具體步驟包括:
輸入W=(E,A);
初始化節點記憶N,循環執行初始化Q值及神經網絡權重系數θ,嵌套循環1至k,在起點位置ei用戶滿足交通規則時,采用ε貪婪策略選擇和起點位置相連的路段ai,i+1;
將選擇記錄[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解,并將記錄[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存儲于求解記憶P,直到最后一個路徑點ek和終點eD重合結束循環;
計算成功從起點到終點的路徑中每個起點位置ei到終點的累積折減收益G(hi:k),并更新節點記憶N;
使用梯度下降更新θ,以最小化[(q(ei)-Q(s(ei),θ))]2,輸出貪婪策略ai,i+1=π(ei),得到所選擇的一個路段,到達終點后,所有選擇的路段組成的路徑即與最短距離模式對應的路徑;
若用戶選擇的騎行模式為所述風景最優模式,則通過約束深度強化學習算法確定出對騎行模式對應的目標路徑,包括:
根據騎行經驗設定風景評分初始值g0,待選路徑集合W中包括所有路徑點組成的路徑點集E、有向路徑集A、每條待選路徑的綜合風景評分集g,用戶的起點位置ei為路徑點集E中的第i個路徑點,將用戶的起點位置ei的狀態特征表示為s(ei)=[xi,yi,xD,yD],xi表示起點的經度,yi表示起點的緯度,xD表示終點的經度,yD表示終點的緯度;起點位置ei到終點的騎行時間用Q(s(ei))表示,將起點位置ei的狀態特征s(ei)輸入BP神經網絡得到起點到終點的騎行時間Q(s(ei));
用戶在待選路徑集合G中所在路徑點ei+n∈E,ei+n表示在起點位置ei后的第n個路徑點,與起點位置ei相連接的所有路段ai,j組成起點位置ei的有向路徑集A(ei);獎勵函數r(ei,ai,i+1)表示用戶在起點位置ei選擇路段ai,i+1的騎行時間Q(s(ei));根據騎行經驗執行貪婪策略π和環境交互得到由所在路徑點、選擇的相鄰路段和騎行時間組成的求解:hi:k=ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek,ek表示終點之前所經過的最后一個路口,即路徑點集E中的第k個路徑點;
當完成一次求解,Q值發生更新,將求解中用戶在起點位置ei以及之后經過的每個路徑點表示為[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存儲于求解記憶P中;當每次完成成功求解時,計算成功求解中每個起點位置ei到終點位置的累積折減收益G(hi:k);定義節點記憶N={[s(ei),q(ei)|ei∈E,q(ei)=minG(hi:k)]},二元組s(ei),q(ei)存儲起點位置ei的狀態特征和起點到終點的最短騎行時間;
采用深度Q-learning算法,神經網路的訓練通過最小化起點位置ei到終點的最短騎行時間q(ei)和起點位置ei到終點的騎行時間估計值Q(s(ei))誤差平方和,即其中θ為神經網絡權重系數;
采用ε貪婪策略,以ε概率選擇當前最佳策略,1-ε概率隨機選擇策略,基于深度Q-learning算法,結合待選路徑集合W,選擇對應風景最優模式的路徑,具體步驟包括:
輸入W=(E,A,g);
初始化節點記憶N,循環執行初始化Q值及神經網絡權重系數θ,嵌套循環1至k,在起點位置ei用戶滿足交通規則時,采用ε貪婪策略選擇和起點位置相連的路段ai,i+1;
將選擇記錄[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解,并將記錄[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存儲于求解記憶P,直到最后一個路徑點ek和終點eD重合結束循環;
計算成功從起點到終點的路徑中每個起點位置ei到終點的累積折減收益G(hi:k),并更新節點記憶N;
使用梯度下降更新θ,以最小化輸出貪婪策略ai,i+1=π(ei),得到所選擇的一個路段,到達終點后,所有選擇的路段組成的路徑即與風景最優模式對應的路徑;
若用戶選擇的騎行模式為所述鍛煉身體模式,則通過約束深度強化學習算法確定出對騎行模式對應的目標路徑,包括:
設每條待選路徑的最低點el海拔為Zl,最高點eh海拔為Zh,海拔差最大值為z,待選路徑集合W中包括所有路徑點組成的路徑點集E、有向路徑集A、每條待選路徑的最大海拔差集Z,用戶的起點位置ei為路徑點集E中的第i個路徑點,將用戶的起點位置ei的狀態特征表示為s(ei)=[xi,yi,xD,yD],xi表示起點的經度,yi表示起點的緯度,xD表示終點的經度,yD表示終點的緯度;起點位置ei到終點的騎行時間用Q(s(ei))表示,將起點位置ei的狀態特征s(ei)輸入BP神經網絡得到起點到終點的騎行時間Q(s(ei));
用戶在待選路徑集合G中所在路徑點ei+n∈E,ei+n表示在起點位置ei后的第n個路徑點,與起點位置ei相連接的所有路段ai,j組成起點位置ei的有向路徑集A(ei);獎勵函數r(ei,ai,i+1)表示用戶在起點位置ei選擇路段ai,i+1的騎行時間Q(s(ei));根據騎行經驗執行貪婪策略π和環境交互得到由所在路徑點、選擇的相鄰路段和騎行時間組成的求解:hi:k=ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek,ek表示終點之前所經過的最后一個路口,即路徑點集E中的第k個路徑點;
當完成一次求解,Q值發生更新,將求解中用戶在起點位置ei以及之后經過的每個路徑點表示為[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存儲于求解記憶P中;當每次完成成功求解時,計算成功求解中每個起點位置ei到終點位置的累積折減收益G(hi:k);定義節點記憶N={[s(ei),q(ei)|ei∈E,q(ei)=minG(hi:k)]},二元組s(ei),q(ei)存儲起點位置ei的狀態特征和起點到終點的最短騎行時間;
采用深度Q-learning算法,神經網路的訓練通過最小化起點位置ei到終點的最短騎行時間q(ei)和起點位置ei到終點的騎行時間估計值Q(s(ei))誤差平方和,即其中θ為神經網絡權重系數;
采用ε貪婪策略,以ε概率選擇當前最佳策略,1-ε概率隨機選擇策略,基于深度Q-learning算法,結合待選路徑集合W,選擇對應鍛煉身體模式的路徑,具體步驟包括:
輸入W=(E,A,Z);
初始化節點記憶N,循環執行初始化Q值及神經網絡權重系數θ,嵌套循環1至k,在起點位置ei用戶滿足交通規則時,采用ε貪婪策略選擇和起點位置相連的路段ai,i+1;
將選擇記錄[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解,并將記錄[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存儲于求解記憶P,直到最后一個路徑點ek和終點eD重合結束循環;
計算成功從起點到終點的路徑中每個起點位置ei到終點的累積折減收益G(hi:k),并更新節點記憶N;
使用梯度下降更新θ,以最小化輸出貪婪策略ai,i+1=π(ei),得到所選擇的一個路段,到達終點后,所有選擇的路段組成的路徑即與鍛煉身體模式對應的路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910371140.2/1.html,轉載請聲明來源鉆瓜專利網。





