[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202310362124.3 | 申請日: | 2023-04-07 |
| 公開(公告)號: | CN116542445A | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 王艷紅;趙天睿;張俊;于洪霞 | 申請(專利權(quán))人: | 沈陽工業(yè)大學(xué) |
| 主分類號: | G06Q10/0631 | 分類號: | G06Q10/0631;G06Q50/04;G06F30/27;G06N7/01;G06N3/045;G06N3/084;G06N3/092;G06F111/04;G06F111/08 |
| 代理公司: | 沈陽智龍專利事務(wù)所(普通合伙) 21115 | 代理人: | 王聰耀;宋鐵軍 |
| 地址: | 110870 遼寧省沈陽*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 裝備 制造 車間 智能 調(diào)度 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法和系統(tǒng)。方法步驟為考慮作業(yè)車間中常出現(xiàn)的新作業(yè)隨機(jī)到達(dá)、機(jī)器故障等動態(tài)事件,建立柔性作業(yè)車間動態(tài)調(diào)度問題模型;以車間當(dāng)前狀態(tài)為輸入,以調(diào)度規(guī)則為輸出,將該模型的求解過程轉(zhuǎn)化為一個多智能體馬爾科夫決策過程;基于近端策略優(yōu)化算法,由策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)構(gòu)成一種改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò);采用Adam隨機(jī)優(yōu)化算法,對網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練和更新;基于上述算法,求解馬爾科夫決策過程,獲得最佳調(diào)度規(guī)則,進(jìn)而完成在動態(tài)作業(yè)環(huán)境下的優(yōu)化調(diào)度。本發(fā)明解決現(xiàn)有啟發(fā)式等調(diào)度算法難以實時處理動態(tài)事件,且隨著問題規(guī)模增大而收斂速度慢、甚至難收斂的問題,滿足車間實際調(diào)度需求。
技術(shù)領(lǐng)域
本發(fā)明涉及裝備制造調(diào)度領(lǐng)域,尤其是涉及一種基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法和系統(tǒng)。
背景技術(shù)
裝備制造業(yè)是一個技術(shù)密集與勞動密集同時存在的特殊行業(yè),所生產(chǎn)的產(chǎn)品主要通過按單制造、非標(biāo)制造、項目制造等模式進(jìn)行,其生產(chǎn)組織過程非常復(fù)雜,因而實現(xiàn)生產(chǎn)管理的信息化、智能化是一項十分艱巨的任務(wù)。生產(chǎn)調(diào)度著重解決如何在有限資源條件下,在滿足產(chǎn)品工藝、能力等約束條件的同時,獲得“任務(wù)—資源—時間”的優(yōu)化調(diào)度方案,對于生產(chǎn)的組織管理具有非常重要作用。然而,在裝備制造系統(tǒng)中,由于產(chǎn)品制造過程中生產(chǎn)環(huán)節(jié)多、協(xié)作關(guān)系復(fù)雜、生產(chǎn)連續(xù)性強(qiáng)、環(huán)境變化快,一旦某一措施沒有按期實現(xiàn)或某一局部發(fā)生故障,往往會波及整個生產(chǎn)系統(tǒng)的運行,因此,智能工廠的生產(chǎn)調(diào)度非常重要,對于管理者及時了解、掌握生產(chǎn)進(jìn)度;對于研究分析產(chǎn)能瓶頸,進(jìn)而根據(jù)不同情況采取相應(yīng)對策;對于提高生產(chǎn)效率、提高企業(yè)競爭力都具有非常重要的作用。裝備制造系統(tǒng)的生產(chǎn)調(diào)度屬于FJSP(柔性作業(yè)車間調(diào)度)問題,是一個經(jīng)典的NP-hard問題。早期的研究受計算資源和求解能力的限制,研究主要采用啟發(fā)式算法、群智能算法,從問題的復(fù)雜度、算法的收斂性以及算法的求解效率、求解質(zhì)量方面展開。隨著制造業(yè)的不斷發(fā)展,大規(guī)模異構(gòu)制造資源及高度動態(tài)不確定性導(dǎo)致調(diào)度算法的研究遇到了瓶頸和新的挑戰(zhàn)。一是因為隨著問題規(guī)模增大、約束增多、不確定性增強(qiáng),調(diào)度問題的最優(yōu)解很難得到;二是因為即使得到了最優(yōu)解,也會由于作業(yè)狀態(tài)的實時變化而難以得到充分、有效的實施,尤其是當(dāng)新作業(yè)隨機(jī)到達(dá)、機(jī)器故障、急件等動態(tài)事件的出現(xiàn)時,很難達(dá)到預(yù)期的性能指標(biāo)。
強(qiáng)化學(xué)習(xí)是一種能與環(huán)境交互,在歷史與當(dāng)前動作中不斷學(xué)習(xí)知識的算法,在自然語言處理、模式識別等領(lǐng)域得到了成功的應(yīng)用,但在生產(chǎn)調(diào)度這類組合優(yōu)化領(lǐng)域研究還很少。強(qiáng)化學(xué)習(xí)分為價值學(xué)習(xí)和策略學(xué)習(xí)兩種方法,目前使用強(qiáng)化學(xué)習(xí)求解DFJSP問題的方法大多使用Q學(xué)習(xí)算法,它是一種價值學(xué)習(xí)算法,運行速度慢且需要大量計算空間存儲Q表,因而在收斂速度往往低于策略學(xué)習(xí)算法。
發(fā)明內(nèi)容
發(fā)明目的:本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法和系統(tǒng),其目的在于解決現(xiàn)有調(diào)度算法難以實時處理動態(tài)事件,以及隨著問題規(guī)模增大而收斂速度慢、難收斂的問題。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
本發(fā)明一方面提出一種基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法,所述智能調(diào)度方法包括以下步驟:
步驟1:考慮車間作業(yè)過程中常存在的動態(tài)事件的情況,以作業(yè)總延遲時間最小作為性能指標(biāo),建立柔性作業(yè)車間動態(tài)調(diào)度模型;
步驟2:以車間當(dāng)前狀態(tài)為輸入,以調(diào)度規(guī)則為輸出,通過設(shè)計狀態(tài)S、動作A、策略π、獎勵R和回報G5個要素,將柔性作業(yè)車間動態(tài)調(diào)度模型的求解過程轉(zhuǎn)化為一個多智能體馬爾科夫決策過程;
步驟3:基于近端策略優(yōu)化算法,得到由策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)構(gòu)成的改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò);
步驟4:采用Adam隨機(jī)優(yōu)化算法,通過改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中智能體與環(huán)境的不斷交互,對改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練和更新;
步驟5:智能體利用訓(xùn)練好的改進(jìn)深度強(qiáng)化學(xué)習(xí)算法,得到馬爾科夫決策過程在不同狀態(tài)下的延遲時間最小的調(diào)度方案,生成使性能指標(biāo)最優(yōu)的調(diào)度規(guī)則,進(jìn)而完成在動態(tài)作業(yè)環(huán)境下的優(yōu)化調(diào)度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽工業(yè)大學(xué),未經(jīng)沈陽工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310362124.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





