[發明專利]一種限制性騎行路徑規劃裝置及方法有效

申請號：	201910371140.2	申請日：	2019-05-06
公開（公告）號：	CN110081897B	公開（公告）日：	2020-10-27
發明（設計）人：	王子赟;阮悅穎;張潔;陳悅林;葉小瑋;陸妍	申請（專利權）人：	江南大學
主分類號：	G01C21/34	分類號：	G01C21/34;G06N3/08
代理公司：	無錫華源專利商標事務所(普通合伙) 32228	代理人：	聶啟新
地址：	214122 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種限制性行路規劃裝置方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種限制性騎行路徑規劃方法，其特征在于，限制性騎行路徑規劃裝置包括：主機電路和從機電路，所述主機電路和所述從機電路通過無線通信連接；所述主機電路包括主機控制器、定位接收器、記錄設備，所述主機控制器分別與所述定位接收器和所述記錄設備連接；所述從機電路包括從機控制器、交互輸入設備、交互顯示設備，所述從機控制器分別與所述交互輸入設備和所述交互顯示設備連接；所述定位接收器用于定位幀數據中的經度數據和緯度數據，并對各個路徑點進行標記；所述記錄設備用于記錄和存儲位置數據；所述交互輸入設備用于輸入騎行目的地；所述交互顯示設備用于顯示用戶的實時位置和騎行路徑；

所述方法包括：

確定預定區域內的各個路徑點，所述路徑點為至少兩條道路的交匯點；

采集各個路徑點的經緯度數據，記錄各個路徑點的海拔高度，對每個路徑點預設風景評分，將每個路徑點的經緯度數據、海拔高度、風景評分對應存儲；

接收用戶選擇的起點和終點，對于每個行駛路段，獲取同時間段內GPS數據中其他騎行者的所有騎行路徑，確定出起點與終點之間的所有待選路徑集合，所述待選路徑集合包括有向路段集、每條待選路徑的最大海拔差集和每條待選路徑的綜合風景評分集；

接收用戶選擇的騎行模式，所述騎行模式包括最短距離模式、風景最優模式、鍛煉身體模式；

若用戶選擇的騎行模式為所述最短距離模式，則通過約束深度強化學習算法確定出對騎行模式對應的目標路徑，包括：

待選路徑集合W中包括所有路徑點組成的路徑點集E和有向路徑集A，用戶的起點位置e_i為路徑點集E中的第i個路徑點，將用戶的起點位置e_i的狀態特征表示為s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起點的經度，y_i表示起點的緯度，x_D表示終點的經度，y_D表示終點的緯度；起點位置e_i到終點的騎行時間用Q(s(e_i))表示，將起點位置e_i的狀態特征s(e_i)輸入BP神經網絡得到起點到終點的騎行時間Q(s(e_i))；

用戶在待選路徑集合G中所在路徑點e_i+n∈E，e_i+n表示在起點位置e_i后的第n個路徑點，與起點位置e_i相連接的所有路段a_i,j組成起點位置e_i的有向路徑集A(e_i)；獎勵函數r(e_i,a_i,i+1)表示用戶在起點位置e_i選擇路段a_i,i+1的騎行時間Q(s(e_i))；根據騎行經驗執行貪婪策略π和環境交互得到由所在路徑點、選擇的相鄰路段和騎行時間組成的求解：h_i:k＝e_i,a_i,i+1,r(e_i,a_i,i+1),e_i+1,a_i+1,i+2,...,e_k，e_k表示終點之前所經過的最后一個路口，即路徑點集E中的第k個路徑點；

當完成一次求解，Q值發生更新，將求解中用戶在起點位置e_i以及之后經過的每個路徑點表示為[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存儲于求解記憶P中；當每次完成成功求解時，計算成功求解中每個起點位置e_i到終點位置的累積折減收益G(h_i:k)；定義節點記憶N＝{[s(e_i),q(e_i)|e_i∈E,q(e_i)＝minG(h_i:k)]}，二元組s(e_i)，q(e_i)存儲起點位置e_i的狀態特征和起點到終點的最短騎行時間；

采用深度Q-learning算法，神經網路的訓練通過最小化起點位置e_i到終點的最短騎行時間q(e_i)和起點位置ei到終點的騎行時間估計值Q(s(e_i))誤差平方和，即其中θ為神經網絡權重系數；

采用ε貪婪策略，以ε概率選擇當前最佳策略，1-ε概率隨機選擇策略，基于深度Q-learning算法，結合待選路徑集合W，選擇對應最短距離模式的路徑，具體步驟包括：

輸入W＝(E,A)；

初始化節點記憶N，循環執行初始化Q值及神經網絡權重系數θ，嵌套循環1至k，在起點位置e_i用戶滿足交通規則時，采用ε貪婪策略選擇和起點位置相連的路段a_i,i+1；

將選擇記錄[s(e_i),a_i,i+1,r(e_i,a_i,i+1)]加入求解，并將記錄[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存儲于求解記憶P，直到最后一個路徑點e_k和終點e_D重合結束循環；

計算成功從起點到終點的路徑中每個起點位置e_i到終點的累積折減收益G(h_i:k)，并更新節點記憶N；

使用梯度下降更新θ，以最小化[(q(e_i)-Q(s(e_i),θ))]²，輸出貪婪策略a_i,i+1＝π(e_i)，得到所選擇的一個路段，到達終點后，所有選擇的路段組成的路徑即與最短距離模式對應的路徑；

若用戶選擇的騎行模式為所述風景最優模式，則通過約束深度強化學習算法確定出對騎行模式對應的目標路徑，包括：

根據騎行經驗設定風景評分初始值g₀，待選路徑集合W中包括所有路徑點組成的路徑點集E、有向路徑集A、每條待選路徑的綜合風景評分集g，用戶的起點位置e_i為路徑點集E中的第i個路徑點，將用戶的起點位置e_i的狀態特征表示為s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起點的經度，y_i表示起點的緯度，x_D表示終點的經度，y_D表示終點的緯度；起點位置e_i到終點的騎行時間用Q(s(e_i))表示，將起點位置e_i的狀態特征s(e_i)輸入BP神經網絡得到起點到終點的騎行時間Q(s(e_i))；

采用ε貪婪策略，以ε概率選擇當前最佳策略，1-ε概率隨機選擇策略，基于深度Q-learning算法，結合待選路徑集合W，選擇對應風景最優模式的路徑，具體步驟包括：

輸入W＝(E,A,g)；

計算成功從起點到終點的路徑中每個起點位置e_i到終點的累積折減收益G(h_i:k)，并更新節點記憶N；

使用梯度下降更新θ，以最小化輸出貪婪策略a_i,i+1＝π(e_i)，得到所選擇的一個路段，到達終點后，所有選擇的路段組成的路徑即與風景最優模式對應的路徑；

若用戶選擇的騎行模式為所述鍛煉身體模式，則通過約束深度強化學習算法確定出對騎行模式對應的目標路徑，包括：

設每條待選路徑的最低點e_l海拔為Z_l，最高點e_h海拔為Z_h，海拔差最大值為z，待選路徑集合W中包括所有路徑點組成的路徑點集E、有向路徑集A、每條待選路徑的最大海拔差集Z，用戶的起點位置e_i為路徑點集E中的第i個路徑點，將用戶的起點位置e_i的狀態特征表示為s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起點的經度，y_i表示起點的緯度，x_D表示終點的經度，y_D表示終點的緯度；起點位置e_i到終點的騎行時間用Q(s(e_i))表示，將起點位置e_i的狀態特征s(e_i)輸入BP神經網絡得到起點到終點的騎行時間Q(s(e_i))；