[發明專利]基于深度強化學習的多目標柔性作業車間調度方法和裝置在審
| 申請號: | 202010983212.1 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112149987A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 張林宣;羅術 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N3/08;G06N3/04 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 多目標 柔性 作業 車間 調度 方法 裝置 | ||
1.一種基于深度強化學習的多目標柔性作業車間調度方法,其特征在于,包括:
讀取當前重調度時刻的生產線狀態特征向量;
將所述生產線狀態特征向量輸入訓練后的目標智能體的目標策略網絡,得到所述當前重調度時刻的調度目標;
將所述生產線狀態特征向量和所述調度目標輸入訓練后的工件智能體的工件策略網絡,得到所述當前重調度時刻的工件指派規則;
將所述生產線狀態特征向量和所述調度目標輸入訓練后的機器智能體的機器策略網絡,得到所述當前重調度時刻的機器分配規則;
根據所述工件指派規則選取待加工工件,根據所述機器分配規則選取加工機器,以及通過所述加工機器對所述待加工工件的下一道工序進行加工處理。
2.如權利要求1所述的基于深度強化學習的多目標柔性作業車間調度方法,其特征在于,將所述當前重調度時刻的生產線狀態特征向量輸入訓練后的目標智能體的目標策略網絡,得到所述當前重調度時刻的調度目標,包括:
根據所述目標策略網絡中的深度神經網絡對所述生產線狀態特征向量進行處理后輸入分類函數得到每一個優化目標對應的選擇概率;
使用輪盤賭方法根據不同優化目標的選擇概率確定所述調度目標。
3.如權利要求1所述的基于深度強化學習的多目標柔性作業車間調度方法,其特征在于,將所述當前重調度時刻的生產線狀態特征向量和所述當前重調度時刻的調度目標輸入訓練后的工件智能體的工件策略網絡,得到所述當前重調度時刻的工件指派規則,包括:
根據所述工件策略網絡中的深度神經網絡對所述生產線狀態特征向量和所述調度目標進行處理后輸入分類函數得到每一個工件指派規則對應的選擇概率;
使用輪盤賭方法根據不同工件指派規則的選擇概率確定所述工件指派規則。
4.如權利要求1所述的基于深度強化學習的多目標柔性作業車間調度方法,其特征在于,將所述當前重調度時刻的生產線狀態特征向量和所述當前重調度時刻的調度目標輸入訓練后的機器智能體的機器策略網絡,得到當前重調度時刻的機器分配規則,包括:
根據所述機器策略網絡中的深度神經網絡對所述生產線狀態特征向量和所述調度目標進行處理后輸入分類函數得到每一個機器分配規則對應的選擇概率;
使用輪盤賭方法根據不同機器分配規則的選擇概率確定所述機器分配規則。
5.如權利要求1所述的基于深度強化學習的多目標柔性作業車間調度方法,其特征在于,還包括:
將所述當前重調度時刻的生產線狀態特征向量輸入所述目標智能體的目標價值網絡,得到所述當前重調度時刻的目標狀態價值函數;
將所述當前重調度時刻的生產線狀態特征向量和所述當前重調度時刻的調度目標輸入所述工件智能體的工件價值網絡,得到所述當前重調度時刻的工件狀態價值函數;
將所述當前重調度時刻的生產線狀態特征向量和所述當前重調度時刻的調度目標輸入所述機器智能體的機器價值網絡,得到所述當前重調度時刻的機器狀態價值函數。
6.如權利要求1所述的基于深度強化學習的多目標柔性作業車間調度方法,其特征在于,所述當前重調度時刻為任意一道工序的完成時刻、或者,插單到達的時刻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010983212.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種豇豆病蟲害防治的方法
- 下一篇:一種便于夾持的金屬材料表面除銹裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





