[發(fā)明專利]一種基于多智能體強(qiáng)化學(xué)習(xí)的訂單匹配和車輛重定位方法在審
| 申請?zhí)枺?/td> | 202210318631.2 | 申請日: | 2022-03-29 |
| 公開(公告)號: | CN114970944A | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計)人: | 樂鵬;徐明月;楊璨 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/06;G06Q50/30;G06N7/00;G06N3/04;G06N3/08;G06F16/9537 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 智能 強(qiáng)化 學(xué)習(xí) 訂單 匹配 車輛 定位 方法 | ||
1.一種基于多智能體強(qiáng)化學(xué)習(xí)的訂單匹配和車輛重定位方法,其特征在于,包括以下步驟:
步驟1:通過網(wǎng)約車平臺獲取多條訂單數(shù)據(jù)和多個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù);對多條歷史訂單數(shù)據(jù)以及多個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)進(jìn)行空間和時間劃分預(yù)處理,將城市等分為不重疊的多個六邊形格網(wǎng),將一天等分為不重疊的多個時間切片;根據(jù)多條網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)軌跡點(diǎn)數(shù)據(jù)構(gòu)建司機(jī)初始分布向量;
步驟2:通過多條預(yù)處理后的訂單數(shù)據(jù)構(gòu)建訂單分布變化記錄矩陣;
步驟3:構(gòu)建訂單匹配和車輛重定位馬爾科夫決策過程;
步驟4:構(gòu)建時空價值網(wǎng)絡(luò)、目標(biāo)時空價值網(wǎng)絡(luò)以及組合優(yōu)化函數(shù);根據(jù)步驟1.4的供應(yīng)向量和步驟2.2的需求矩陣得到當(dāng)前時間切片編號t每個格網(wǎng)的空閑車輛和等待訂單,得到所有可能的匹配方案;根據(jù)所有可能的匹配方案和構(gòu)建的時空價值網(wǎng)絡(luò)、目標(biāo)時空價值網(wǎng)絡(luò)計算匹配權(quán)重,根據(jù)匹配權(quán)重得到組合優(yōu)化函數(shù)的最優(yōu)匹配方案,從而構(gòu)建基于多智能體強(qiáng)化學(xué)習(xí)的訂單匹配模型:
步驟5:構(gòu)建集中式價值網(wǎng)絡(luò)、目標(biāo)集中式價值網(wǎng)絡(luò)、共享策略網(wǎng)絡(luò)和目標(biāo)共享策略網(wǎng)絡(luò),進(jìn)一步構(gòu)建基于多智能體強(qiáng)化學(xué)習(xí)的車輛重定位模型;
步驟6:使用步驟1的司機(jī)分布向量和步驟2的訂單分布變化記錄矩陣交替進(jìn)行步驟5、步驟6執(zhí)行NT次,使用步驟5和步驟6記錄的變量訓(xùn)練交替訓(xùn)練基于多智能體強(qiáng)化學(xué)習(xí)的訂單匹配模型和基于多智能體強(qiáng)化學(xué)習(xí)的車輛重定位模型;按照設(shè)定的次數(shù)重復(fù)上述步驟,直到模型穩(wěn)定,得到訓(xùn)練好的模型;
步驟1具體如下:
步驟1.1:獲取多條訂單數(shù)據(jù)和多個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù);
所述每條訂單數(shù)據(jù)包括:
每條訂單數(shù)據(jù)的編號、每條訂單數(shù)據(jù)的服務(wù)司機(jī)編號、每條訂單數(shù)據(jù)的乘客上車的時間、每條訂單數(shù)據(jù)的上車點(diǎn)的經(jīng)度、每條訂單數(shù)據(jù)的上車點(diǎn)的緯度、每條訂單數(shù)據(jù)的乘客下車的時間、每條訂單數(shù)據(jù)的下車點(diǎn)的經(jīng)度、每條訂單數(shù)據(jù)的下車點(diǎn)的緯度、每條訂單數(shù)據(jù)的價格和每條訂單數(shù)據(jù)的行程距離;
所述每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)包括:
每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的編號、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的當(dāng)前時間、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的當(dāng)前位置的經(jīng)度、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的當(dāng)前位置的緯度、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的服務(wù)狀態(tài);
所述服務(wù)狀態(tài)為空載或者載客;
步驟1.2:根據(jù)預(yù)設(shè)的六邊形大小對訂單數(shù)據(jù)所在的網(wǎng)約車服務(wù)區(qū)域進(jìn)行六邊形格網(wǎng)劃分,分成NH個不重疊的六邊形格網(wǎng),記作六邊形格網(wǎng)編號六邊形格網(wǎng)編號的數(shù)量是NH;將每條訂單數(shù)據(jù)的上車點(diǎn)的經(jīng)度、每條訂單數(shù)據(jù)的上車點(diǎn)的緯度、每條訂單數(shù)據(jù)的下車點(diǎn)的經(jīng)度、每條訂單數(shù)據(jù)的下車點(diǎn)的緯度、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的當(dāng)前位置的經(jīng)度、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的當(dāng)前位置的緯度依次轉(zhuǎn)換為對應(yīng)的六邊形格網(wǎng)編號;將對應(yīng)的六邊形格網(wǎng)編號添加至每條訂單數(shù)據(jù),將對應(yīng)的六邊形格網(wǎng)編號添加至每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù);
步驟1.3:根據(jù)預(yù)設(shè)的時間間隔對一天進(jìn)行時間切片,分成NT個不重疊的時間切片,記作時間切片編號時間切片編號的數(shù)量為NT;將每條訂單數(shù)據(jù)的乘客上車的時間、每條訂單數(shù)據(jù)的乘客下車的時間、每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的當(dāng)前時間依次轉(zhuǎn)換為對應(yīng)的時間切片編號,將對應(yīng)的時間切片編號添加至每條訂單數(shù)據(jù)得到每條預(yù)處理后的訂單數(shù)據(jù),將對應(yīng)的時間切片編號t添加至每個網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)得到每個預(yù)處理后的網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù);
步驟1.4:根據(jù)所有網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的編號和所有網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)的時間切片編號得到每個司機(jī)編號第一次出現(xiàn)的時間切片編號,作為每個網(wǎng)約司機(jī)的上班時間,統(tǒng)計所有網(wǎng)約司機(jī)的上班時間的分布的峰值,根據(jù)所有網(wǎng)約車司機(jī)的歷史軌跡點(diǎn)數(shù)據(jù)位于峰值時段內(nèi)每個六邊形格網(wǎng)的司機(jī)數(shù)量的比例生成上班時間每個六邊形格網(wǎng)的司機(jī)數(shù)量,記作初始供應(yīng)向量S,所述S的長度為NH;
所述的步驟2具體包括:
步驟2.1:根據(jù)多條預(yù)處理后的訂單數(shù)據(jù)的上車時間編號、上車點(diǎn)的六邊形格網(wǎng)編號、下車點(diǎn)的六邊形格網(wǎng)編號,統(tǒng)計得到每個時間片段從每個六邊形格網(wǎng)出發(fā)到每個六邊形格網(wǎng)的訂單數(shù)量,記作需求矩陣D,大小為NT×NH×NH,;
步驟2.2:根據(jù)多條預(yù)處理后的訂單數(shù)據(jù)的上車點(diǎn)的六邊形格網(wǎng)編號、下車點(diǎn)的六邊形格網(wǎng)編號、訂單價格和行程距離,統(tǒng)計得到從每個六邊形格網(wǎng)出發(fā)到每個六邊形格網(wǎng)的訂單平均收益,記作獎勵矩陣R,大小為NH×NH,其中,每個訂單的收益=價格―油價×距離,油價根據(jù)網(wǎng)絡(luò)查詢得到;
步驟2.3:根據(jù)多條預(yù)處理后的訂單數(shù)據(jù)的上車點(diǎn)的六邊形格網(wǎng)編號、下車點(diǎn)的六邊形格網(wǎng)編號、時間切片編號,統(tǒng)計得到從每個六邊形格網(wǎng)出發(fā)到每個六邊形格網(wǎng)的訂單平均行程時長,記作時長矩陣T,大小為NH×NH,其中,每個訂單的行程時長=下車時間編號-上車時間編號。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210318631.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





