[發明專利]基于多智能體強化學習的信貸工廠訂單調度方法及裝置有效
| 申請號: | 202011591872.1 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112288341B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 崔潤邦;王琦;鄧江;賈寧;黃超琪 | 申請(專利權)人: | 青島泛鈦客科技有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q40/02;G06K9/62 |
| 代理公司: | 北京市維詩律師事務所 11393 | 代理人: | 李翔;楊安進 |
| 地址: | 266114 山東省青島市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 強化 學習 信貸 工廠 訂單 調度 方法 裝置 | ||
1.基于多智能體強化學習的信貸工廠訂單調度方法,其特征在于,該信貸工廠訂單調度方法包括:
多智能體將行動發送至環境;
環境計算出所述多智能體共享的狀態以及各個智能體的獎勵;
環境將所述多智能體共享的狀態以及各個智能體的獎勵發送至對應的各個智能體;
各個智能體根據收到的狀態以及獎勵選擇行動;
其中,所述多智能體依次處理所述信貸工廠訂單,
所述環境根據下述步驟計算獎勵:
環境計算,其中為在狀態s下采取動作a的衡量指標,為第t步信貸工廠訂單的平均等待時間,為第t步信貸工廠訂單的超時率;
環境將與狀態s下的平均衡量指標相關的參數進行比較,并根據比較結果給出獎勵。
2.根據權利要求1所述的基于多智能體強化學習的信貸工廠訂單調度方法,其特征在于,所述多智能體的數量為多個,所述環境為所述信貸工廠。
3.根據權利要求1或2所述的基于多智能體強化學習的信貸工廠訂單調度方法,其特征在于,所述行動為選擇的調度規則。
4.根據權利要求3所述的基于多智能體強化學習的信貸工廠訂單調度方法,其特征在于,所述調度規則為先到先服務、最短松弛時間、最早截止時間、以及后到先服務中的一者,其中松弛時間為截止時間與到達時間之差。
5.根據權利要求1所述的基于多智能體強化學習的信貸工廠訂單調度方法,其特征在于,所述環境根據如下步驟分配獎勵:
獲取各個智能體處理信貸工廠訂單的松弛時間;
至少獲取各個智能體中信貸工廠訂單的輸入時間、結束時間和等待時間;如果結束時間和到達之間之差大于松弛時間,則該智能體處理信貸工廠訂單超時;
計算各個智能體處理信貸工廠訂單的平均等待時間和超時率;
根據信貸工廠訂單的平均等待時間和超時率,將獎勵分配給各個智能體。
6.根據權利要求1所述的基于多智能體強化學習的信貸工廠訂單調度方法,其特征在于,環境根據如下步驟計算多智能體共享的狀態:
使用編碼器對信貸工廠訂單處理信息矩陣進行維度處理;
對維度處理后的信貸工廠訂單處理信息矩陣進行聚類,得到多智能體共享的狀態。
7.基于多智能體強化學習的信貸工廠訂單調度裝置,其特征在于,該信貸工廠訂單調度裝置包括多智能體和環境;
多智能體,用于根據收到的狀態以及獎勵選擇行動;將行動發送至環境;
環境,用于計算出所述多智能體共享的狀態以及各個智能體的獎勵;將所述多智能體共享的狀態以及各個智能體的獎勵發送至對應的各個智能體;
其中,所述多智能體依次處理所述信貸工廠訂單,
所述環境還用于計算,其中為在狀態s下采取動作a的衡量指標,為第t步信貸工廠訂單的平均等待時間,為第t步信貸工廠訂單的超時率;將與狀態s下的平均衡量指標相關的參數進行比較,并根據比較結果給出獎勵。
8.根據權利要求7所述的基于多智能體強化學習的信貸工廠訂單調度裝置,其特征在于,所述多智能體的數量為多個,所述環境為所述信貸工廠。
9.根據權利要求7或8所述的基于多智能體強化學習的信貸工廠訂單調度裝置,其特征在于,所述行動為選擇的調度規則。
10.根據權利要求9所述的基于多智能體強化學習的信貸工廠訂單調度裝置,其特征在于,所述調度規則為先到先服務、最短松弛時間、最早截止時間、以及后到先服務中的一者,其中松弛時間為截止時間與到達時間之差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島泛鈦客科技有限公司,未經青島泛鈦客科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011591872.1/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





