[發明專利]一種基于平均獎賞強化學習的MTO企業訂單接受方法有效

申請號：	202110468897.0	申請日：	2021-04-28
公開（公告）號：	CN113077188B	公開（公告）日：	2022-11-08
發明（設計）人：	吳克宇;錢靜;陳超;劉忠;黃金才;程光權;胡星辰;杜航	申請（專利權）人：	中國人民解放軍國防科技大學
主分類號：	G06Q10/06	分類號：	G06Q10/06;G06Q30/02;G06N5/00
代理公司：	北京眾合誠成知識產權代理有限公司 11246	代理人：	劉妮
地址：	410073 湖***	國省代碼：	湖南;43
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于平均獎賞強化學習 mto 企業訂單接受方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：包括以下步驟：

步驟一：訂單信息假設

假設MTO企業通過單一生產線生產，且市場上存在n種類型的顧客訂單，訂單信息包括顧客優先級μ、價格p、數量Q、單位產品生產成本c、提前期LT及最遲交貨期DT；

步驟二：確定系統狀態集

根據步驟一，若系統中有n種訂單類型，則系統狀態可由向量S表示：S＝(μ,p,Q,LT,DT,T)，其中T表示決策階段之前已接受的訂單仍需要的生產時間；

步驟三：確定系統動作集

根據步驟一，當有顧客訂單到達時，需要做出接受和拒絕訂單的決策，模型中的動作集合可由向量A＝(a₁,a₂)表示，其中a₁表示接受訂單，a₂表示拒絕訂單；

步驟四：確定立即回報函數

MTO企業在做出是否接受訂單決策后，獲得的立即回報函數為：

公式中I＝p*Q，表示獲得該訂單的利潤，C＝c*Q，表示消耗的生產成本，Y表示企業的延期懲罰成本，N表示產生庫存成本的費用，J表示訂單的拒絕成本；

步驟五：構建訂單接受模型

根據系統狀態集、系統動作集和立即回報函數構建半馬爾科夫決策過程訂單接受模型，并基于平均獎賞強化學習的思想模擬現實的MTO企業訂單接受問題，根據貝爾曼最優定理，半馬爾科夫決策過程問題中相應的最優策略為：

其中表示決策期m獲得的平均回報，t_m表示決策期m由狀態s轉移到狀態s'的時間；

步驟六：訂單接受模型求解

采用強化學習平均獎賞作為評價目標，通過平均獎賞強化學習SMART算法對半馬爾科夫決策過程訂單接受模型進行求解，并在SMART算法中運用貪心算法對訂單進行排序，得到訂單接收最優決策，平均獎賞強化學習SMART算法的更新公式為：

式中α表示學習率，m表示當前迭代索引，r_m(s,a,s′)表示在狀態s采取動作a后獲得的立即回報，t_m(s,a,s′)表示由狀態s轉移到s'的時間，R_m表示第m個決策時期的累積回報，ρ_m表示第m個決策時期的平均回報，t_m表示第m個決策時期的累計時間。

2.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：所述步驟一中，顧客訂單達到服從參數為λ的泊松分布，訂單的價格和需求數量均服從均勻分布。

3.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：所述步驟二中，基于有限產能的MTO企業，T有最大上限值，并且有n種訂單類型，則系統的狀態集合S共有n*T個狀態。

4.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：所述步驟四中，r(s,a)的三個等式從上之下分別表示當Q(s,a₁)Q(s,a₂)時，且在當前狀態下訂單能插入到當前的生產計劃中，立即回報等于接受該訂單所獲得的凈利潤，當Q(s,a₁)Q(s,a₂)時，但在當前狀態下訂單不能插入到當前的生產計劃中，立即回報等于損失的訂單凈利潤，當Q(s,a₁)Q(s,a₂)時，立即回報等于拒絕成本。

5.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：所述步驟四中，企業的延期懲罰成本Y＝μ*u*{(T+Q/b)-LT}，其中u表示單位時間延期懲罰成本，b表示為企業的單位生產能力。

6.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：所述步驟四中，顧客在提前期之前生產出來的產品不提前取貨，導致產品被暫存在MTO企業倉庫中所產生的庫存成本費用N＝Q*h*{LT-(T+Q/b)}，其中h表示單位時間單位產品儲存成本。

7.根據權利要求1所述的一種基于平均獎賞強化學習的MTO企業訂單接受方法，其特征在于：所述步驟六中，采用隨著仿真迭代次數的增加而減小的探索性概率e保證平均獎賞強化學習SMART算法的收斂性，且α和e按照DCM方案衰減：

式中χ表示任意大的實數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學，未經中國人民解放軍國防科技大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110468897.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種多功能高效始極片剝片機組
下一篇：一種提高NMN生物合成酶Nampt的酶活的創新方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法；其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政；管理
G06Q10-02 .預定，例如用于門票、服務或事件的
G06Q10-04 .預測或優化，例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理，例如組織、規劃、調度或分配時間、人員或機器資源；企業規劃；組織模型
G06Q10-08 .物流，例如倉儲、裝貨、配送或運輸；存貨或庫存管理，例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化，例如電子郵件或群件的計算機輔助管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】