[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202310362124.3 | 申請(qǐng)日: | 2023-04-07 |
| 公開(公告)號(hào): | CN116542445A | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 王艷紅;趙天睿;張俊;于洪霞 | 申請(qǐng)(專利權(quán))人: | 沈陽工業(yè)大學(xué) |
| 主分類號(hào): | G06Q10/0631 | 分類號(hào): | G06Q10/0631;G06Q50/04;G06F30/27;G06N7/01;G06N3/045;G06N3/084;G06N3/092;G06F111/04;G06F111/08 |
| 代理公司: | 沈陽智龍專利事務(wù)所(普通合伙) 21115 | 代理人: | 王聰耀;宋鐵軍 |
| 地址: | 110870 遼寧省沈陽*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 裝備 制造 車間 智能 調(diào)度 方法 系統(tǒng) | ||
1.基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法,其特征在于,所述智能調(diào)度方法包括以下步驟:
步驟1:考慮車間作業(yè)過程中常存在的動(dòng)態(tài)事件的情況,以作業(yè)總延遲時(shí)間最小作為性能指標(biāo),建立柔性作業(yè)車間動(dòng)態(tài)調(diào)度模型;
步驟2:以車間當(dāng)前狀態(tài)為輸入,以調(diào)度規(guī)則為輸出,通過設(shè)計(jì)狀態(tài)S、動(dòng)作A、策略π、獎(jiǎng)勵(lì)R和回報(bào)G5個(gè)要素,將柔性作業(yè)車間動(dòng)態(tài)調(diào)度模型的求解過程轉(zhuǎn)化為一個(gè)多智能體馬爾科夫決策過程;
步驟3:基于近端策略優(yōu)化算法,得到由策略網(wǎng)絡(luò)(2)和價(jià)值網(wǎng)絡(luò)(3)構(gòu)成的改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò);
步驟4:采用Adam隨機(jī)優(yōu)化算法,通過改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中智能體與環(huán)境的不斷交互,對(duì)改進(jìn)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練和更新;
步驟5:智能體利用訓(xùn)練好的改進(jìn)深度強(qiáng)化學(xué)習(xí)算法,得到馬爾科夫決策過程在不同狀態(tài)下的延遲時(shí)間最小的調(diào)度方案,生成使性能指標(biāo)最優(yōu)的調(diào)度規(guī)則,進(jìn)而完成在動(dòng)態(tài)作業(yè)環(huán)境下的優(yōu)化調(diào)度。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法,其特征在于,步驟1中調(diào)度模型的約束條件為:
s.t.:
其中,n為工件總數(shù),m為機(jī)器總數(shù),Ji表示第i個(gè)工件,ni表示加工Ji需要的工序總數(shù),Mk表示第k臺(tái)機(jī)器,Oij表示工件Ji的第j道工序,Mij表示加工工序Oij的可用機(jī)器集合,tijk表示工序Oij在機(jī)器Mk上的加工時(shí)間,Ai為工件的到達(dá)時(shí)間,Di為工件的交貨期,Cij為工序Oij的完成時(shí)間,Ci為工件Ji的完成時(shí)間,i,l表示工件索引,i,l=1,2,...,n,j,g表示工序索引,j,g=1,2,...,p,k表示機(jī)器索引,k=1,2,...,m。
3.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的裝備制造車間智能調(diào)度方法,其特征在于,步驟2中所述狀態(tài)S包括7個(gè)狀態(tài)變量,分別為機(jī)器平均利用率Uave(t)、機(jī)器利用率的標(biāo)準(zhǔn)差Ustd(t)、工序的平均完成率CROave(t)、作業(yè)的平均完成率CRJave(t)以及作業(yè)完成率的標(biāo)準(zhǔn)差CRJstd(t)、機(jī)器平均負(fù)載機(jī)器負(fù)載的標(biāo)準(zhǔn)差它們經(jīng)歸一化取值在[0,1]之間,
1)機(jī)器平均利用率Uave(t):
2)機(jī)器利用率的標(biāo)準(zhǔn)差Ustd(t):
3)工序的平均完成率CROave(t):
4)作業(yè)的平均完成率CRJave(t):
5)作業(yè)完成率的標(biāo)準(zhǔn)差CRJstd(t):
6)機(jī)器平均負(fù)載
7)機(jī)器負(fù)載的標(biāo)準(zhǔn)差
其中,n為當(dāng)前要完成的作業(yè)數(shù)量,ni為作業(yè)Ji需要的工序總數(shù),Uk(t)表示在時(shí)刻t時(shí)機(jī)器k的利用率,OPi(t)表示工作Ji在t時(shí)刻已完成的工序數(shù)量,CRj(t)表示作業(yè)Ji在t時(shí)刻的作業(yè)完成率,表示機(jī)器Mk在t時(shí)刻的負(fù)載率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽工業(yè)大學(xué),未經(jīng)沈陽工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310362124.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





