[發明專利]基于深度強化學習的多目標柔性作業車間調度方法和裝置在審
| 申請號: | 202010983212.1 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112149987A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 張林宣;羅術 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N3/08;G06N3/04 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 多目標 柔性 作業 車間 調度 方法 裝置 | ||
本發明公開了一種基于深度強化學習的多目標柔性作業車間調度方法和裝置,涉及動態調度技術領域,其中,方法包括:讀取當前重調度時刻的生產線狀態特征向量輸入訓練后的目標智能體的目標策略網絡得到調度目標;將生產線狀態特征向量和調度目標輸入訓練后的工件智能體的工件策略網絡得到工件指派規則,并輸入訓練后的機器智能體的機器策略網絡得到機器分配規則;根據工件指派規則選取待加工工件,根據機器分配規則選取加工機器,通過加工機器對待加工工件的下一道工序進行加工處理。由此,通過在不同的重調度時刻根據生產線的狀態智能選取不同的優化目標、工件指派規則和機器分配規則,實現多目標協同優化和完全實時化、自主化、無人化的智能工廠。
技術領域
本發明涉及動態調度技術領域,特別涉及一種基于深度強化學習的多目標柔性作業車間調度方法和裝置。
背景技術
相關技術中,多目標柔性作業車間動態調度方法大多基于簡單的調度規則或者元啟發式算法,簡單的調度規則主要包括先來先服務(First in First out,簡稱FIFO)、最短交貨期優先(Earliest due date,簡稱EDD)、最長剩余加工時間優先(Most remainingprocessing time,簡稱MRPT)等,其在每個重調度時刻選取一個工件到一臺機器上進行加工,其優點是具有較高的實時性,能對不確定事件立即做出響應,其缺點是具有短視性,從長期來看不能得到較好的調度方案,而且單一的調度規則往往適用于單一優化目標,無法實現多目標優化。
另外,元啟發式算法主要包括遺傳算法(genetic algorithm,簡稱GA)、粒子群優化算法(Particle swarm optimization,簡稱PSO)、蟻群優化算法(Ant colonyoptimization,簡稱ACO)等。其將動態調度問題分解為多階段靜態調度問題進行求解,即在每個重調度時刻對剩余所有未完成的工件統一進行考慮,通過復雜的智能優化算法在龐大的搜索空間內進行尋優,并形成全新的調度方案。其優點是能夠獲得較好的重調度方案,其缺點是運算時間較長,不具有實時性,在動態事件頻發的情況下不適用。
傳統動態調度方法大多針對簡單的作業車間調度問題,既每道工序的加工機器提前給定,且只能由該臺指定的機器進行加工,因此只需決定不同機器上各工序的加工順序即可。而柔性作業車間調度問題中,每道工序可以由給定機器集合中的任意一臺機器進行加工。相比于傳統作業車間調度問題,既要考慮將每道工序安排到合適的機器上進行加工,也要考慮每臺機器上各工序的加工順序。其比簡單的作業車間調度問題更加復雜,已被證明是NP-難題。因此,在各種不確定因素(例如插單和機器故障)并存且頻繁發生的加工環境中,傳統的柔性作業車間動態調度算法,特別是復雜的啟發式算法由于需要耗費大量的計算時間,無法滿足時效性,而簡單的啟發式規則由于具有短視性,且不能實現多目標優化,也無法對調度方案起到長期優化作用。
目前強化學習已經被廣泛應用于解決各種動態調度問題,其中使用最多的算法便是Q學習,傳統的Q-學習在訓練過程中其需要維護一張龐大的Q-函數表,該表的每一行表示某個狀態,每一列代表某個可選動作,每一個元素存儲的便是某個狀態下選取某個動作所對應的Q-函數值。一般而言,在每個重調度時刻只需選擇該狀態下Q-函數值最高的規則作為該時刻的調度規則即可。使用Q表,雖然具有簡單直觀的優點,但卻存在“維數爆炸”的巨大隱患。即其狀態總數隨著狀態特征維數的增長呈指數上升,這對于擁有巨大狀態空間的實際調度問題來說是不可接受的。存儲一張如此龐大而復雜的Q表不僅會引入巨大的計算負擔,也會引入大量從未經歷過的無用狀態,降低了算法效率,以及現有的基于強化學習的動態調度算法往往只考慮單一優化目標(例如總拖期),無法實現多目標優化。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發明的一個目的在于提出一種基于深度強化學習的多目標柔性作業車間實時重調度方法,通過在不同的重調度時刻根據生產線的狀態智能選取不同的優化目標、工件指派規則以及機器分配規則,實現多目標優化以及完全實時化、自主化、無人化的智能工廠。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010983212.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種豇豆病蟲害防治的方法
- 下一篇:一種便于夾持的金屬材料表面除銹裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





