[發(fā)明專利]基于深度強化學(xué)習(xí)的云訂單動態(tài)接受與調(diào)度方法在審
| 申請?zhí)枺?/td> | 202111085349.6 | 申請日: | 2021-09-16 |
| 公開(公告)號: | CN113935586A | 公開(公告)日: | 2022-01-14 |
| 發(fā)明(設(shè)計)人: | 張夢釵;劉項;劉春來;丁祥海;韓杰;田徐鴻;王璐佳 | 申請(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/04;G06N3/04;G06N3/08 |
| 代理公司: | 浙江千克知識產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強化 學(xué)習(xí) 訂單 動態(tài) 接受 調(diào)度 方法 | ||
1.基于深度強化學(xué)習(xí)的云訂單動態(tài)接受與調(diào)度方法,其特征是按如下步驟:
步驟一,接單智能體根據(jù)車間的信息反饋,以最大利潤為目標制定訂單接受策略;
步驟二,當(dāng)云訂單接受后,排單智能體將當(dāng)前時刻剩余工序和云訂單以最小拖期時間和最小擾動為整合目標重調(diào)度;調(diào)度結(jié)束后將車間的生產(chǎn)能力反饋給接單智能體。
2.如權(quán)利要求1所述基于深度強化學(xué)習(xí)的云訂單動態(tài)接受與調(diào)度方法,其特征是,
步驟一中,利潤的目標函數(shù)如下:
其中,pb、v、db、Fb、cb分別表示第b(b=1,2,…g)個云訂單的價格、單位延期時間的懲罰因子、延期時間、固定生產(chǎn)成本,機器生產(chǎn)成本;pQ、dQ、FQ、cQ分別表示第Q(Q=1,2,…h(huán))個自有訂單的價格、延期時間、固定生產(chǎn)成本、機器生產(chǎn)成本;
車間調(diào)度中,所有訂單延期累計時間最小目標函數(shù)為:
車間生產(chǎn)擾動最小的目標函數(shù)為新舊調(diào)度方案的工序加工時間差異累和:
式中,表示第z(z=1,2,…L)個訂單的第w(w=1,2,…u)道工序新調(diào)度與舊調(diào)度方案的開始加工時間差值,表示第z個訂單的第w道工序新調(diào)度方案與舊調(diào)度的結(jié)束加工時間差值。
3.如權(quán)利要求2所述基于深度強化學(xué)習(xí)的云訂單動態(tài)接受與調(diào)度方法,其特征是,
步驟一中,接單智能體的狀態(tài)空間為各機器的加工結(jié)束時間Oi(1≤i≤m)、各機器的加工累計時間Ti1(1≤i≤m)、云訂單工件數(shù)量nb、工件類型type(b)、交貨期Db、價格Pb;
步驟二中,排單智能體的狀態(tài)空間為各機器的加工結(jié)束時間Oi(1≤i≤m)、各機器的加工累計時間Ti1(1≤i≤m)、各工件當(dāng)前最遲加工結(jié)束時間各工件剩余工序Ee(1≤e≤n)、各工件類型在機器上的加工時間表JM。
4.如權(quán)利要求3所述基于深度強化學(xué)習(xí)的云訂單動態(tài)接受與調(diào)度方法,其特征是,
步驟一中,接單智能體的調(diào)度動作為接受訂單和拒絕訂單,定義為:
步驟二中,排單智能體首先同時選擇加工工件和機器的規(guī)則,然后從工序候選集按照規(guī)規(guī)則先選擇加工的工件,再從機器候選集中選擇加工機器。
5.如權(quán)利要求4所述基于深度強化學(xué)習(xí)的云訂單動態(tài)接受與調(diào)度方法,其特征是,
步驟一中,接單智能體的獎勵函數(shù)
接單智能體以利潤最大化作為目標函數(shù),而生產(chǎn)每個訂單都會有對應(yīng)的價格、固定成本、機器加工成本以及延期成本,接單智能體需要通過車間的狀態(tài)判斷接受云訂單是否存在利潤,獎勵函數(shù)設(shè)計如下:
步驟二中,排單智能體的獎勵函數(shù)
接受訂單后,排單智能體將新訂單插入生產(chǎn)時,會對已有訂單的生產(chǎn)安排造成影響,不僅需要考慮訂單延期問題,還需要考慮新插入訂單的擾動問題;因此,排單智能體以訂單最小延期和訂單插入最小擾動雙目標整合作為目標函數(shù);
上式中,每個動作的延期獎勵計算方法為,當(dāng)工件未完成時,以該工序的最遲開始時間作為標準計算延期時間,當(dāng)該工件完成時,則以工件的交貨期為準計算延期時間;式中,S是自有訂單和云訂單的累和總計訂單數(shù)量,r1代表接單智能體在決策時刻tk-1轉(zhuǎn)移至tk的獎勵值;證明得到,最小化訂單延期時間等于最大化獎勵函數(shù)
上式中,tj表示第j(j=1,2,…S)個訂單的延期時間;
將云訂單插入生產(chǎn)時,會造成機器設(shè)備、人員、物料的變動,因此在決策時,期望訂單整體的安排與之前的生產(chǎn)的差異最小;整體的差異通過各工件的每道工序的開始時間和結(jié)束時間的差值計算得到,工序生產(chǎn)的時間差異作為回報反饋給排單智能體;
將單步獎勵轉(zhuǎn)化為整體目標函數(shù):
新調(diào)度方案與舊調(diào)度方案的訂單生產(chǎn)安排差異越小,車間擾動也就越小,得最小化訂單插單生產(chǎn)擾動等于最大化獎勵函數(shù)
當(dāng)有新訂單進入,排單智能體進行新一次調(diào)度安排時,最終的回報將權(quán)衡整合獎勵函數(shù)r1和r2;采用加權(quán)法對兩個目標整合,需要對獎勵函數(shù)先進行歸一化,方法如下:
由于拖期獎勵函數(shù)的最值和訂單擾動函數(shù)的最值未知,所以設(shè)定為:拖期獎勵函數(shù)值訂單擾動函數(shù)值其中,C1,C2是較小的負數(shù),且小于所有的獎勵函數(shù)值;
將兩個目標轉(zhuǎn)化為單目標優(yōu)化問題:
上式中,we代表第e(e=1,2)個目標的權(quán)重,r′e代表第e個目標值經(jīng)過歸一化處理后所得的值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111085349.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





