[發明專利]一種基于平均獎賞強化學習的MTO企業訂單接受方法有效
| 申請號: | 202110468897.0 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113077188B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 吳克宇;錢靜;陳超;劉忠;黃金才;程光權;胡星辰;杜航 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/02;G06N5/00 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 劉妮 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 平均 獎賞 強化 學習 mto 企業 訂單 接受 方法 | ||
1.一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:包括以下步驟:
步驟一:訂單信息假設
假設MTO企業通過單一生產線生產,且市場上存在n種類型的顧客訂單,訂單信息包括顧客優先級μ、價格p、數量Q、單位產品生產成本c、提前期LT及最遲交貨期DT;
步驟二:確定系統狀態集
根據步驟一,若系統中有n種訂單類型,則系統狀態可由向量S表示:S=(μ,p,Q,LT,DT,T),其中T表示決策階段之前已接受的訂單仍需要的生產時間;
步驟三:確定系統動作集
根據步驟一,當有顧客訂單到達時,需要做出接受和拒絕訂單的決策,模型中的動作集合可由向量A=(a1,a2)表示,其中a1表示接受訂單,a2表示拒絕訂單;
步驟四:確定立即回報函數
MTO企業在做出是否接受訂單決策后,獲得的立即回報函數為:
公式中I=p*Q,表示獲得該訂單的利潤,C=c*Q,表示消耗的生產成本,Y表示企業的延期懲罰成本,N表示產生庫存成本的費用,J表示訂單的拒絕成本;
步驟五:構建訂單接受模型
根據系統狀態集、系統動作集和立即回報函數構建半馬爾科夫決策過程訂單接受模型,并基于平均獎賞強化學習的思想模擬現實的MTO企業訂單接受問題,根據貝爾曼最優定理,半馬爾科夫決策過程問題中相應的最優策略為:
其中表示決策期m獲得的平均回報,tm表示決策期m由狀態s轉移到狀態s'的時間;
步驟六:訂單接受模型求解
采用強化學習平均獎賞作為評價目標,通過平均獎賞強化學習SMART算法對半馬爾科夫決策過程訂單接受模型進行求解,并在SMART算法中運用貪心算法對訂單進行排序,得到訂單接收最優決策,平均獎賞強化學習SMART算法的更新公式為:
式中α表示學習率,m表示當前迭代索引,rm(s,a,s′)表示在狀態s采取動作a后獲得的立即回報,tm(s,a,s′)表示由狀態s轉移到s'的時間,Rm表示第m個決策時期的累積回報,ρm表示第m個決策時期的平均回報,tm表示第m個決策時期的累計時間。
2.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:所述步驟一中,顧客訂單達到服從參數為λ的泊松分布,訂單的價格和需求數量均服從均勻分布。
3.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:所述步驟二中,基于有限產能的MTO企業,T有最大上限值,并且有n種訂單類型,則系統的狀態集合S共有n*T個狀態。
4.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:所述步驟四中,r(s,a)的三個等式從上之下分別表示當Q(s,a1)Q(s,a2)時,且在當前狀態下訂單能插入到當前的生產計劃中,立即回報等于接受該訂單所獲得的凈利潤,當Q(s,a1)Q(s,a2)時,但在當前狀態下訂單不能插入到當前的生產計劃中,立即回報等于損失的訂單凈利潤,當Q(s,a1)Q(s,a2)時,立即回報等于拒絕成本。
5.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:所述步驟四中,企業的延期懲罰成本Y=μ*u*{(T+Q/b)-LT},其中u表示單位時間延期懲罰成本,b表示為企業的單位生產能力。
6.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:所述步驟四中,顧客在提前期之前生產出來的產品不提前取貨,導致產品被暫存在MTO企業倉庫中所產生的庫存成本費用N=Q*h*{LT-(T+Q/b)},其中h表示單位時間單位產品儲存成本。
7.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法,其特征在于:所述步驟六中,采用隨著仿真迭代次數的增加而減小的探索性概率e保證平均獎賞強化學習SMART算法的收斂性,且α和e按照DCM方案衰減:
式中χ表示任意大的實數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110468897.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





