[發明專利]一種基于平均獎賞強化學習的MTO企業訂單接受方法有效
| 申請號: | 202110468897.0 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113077188B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 吳克宇;錢靜;陳超;劉忠;黃金才;程光權;胡星辰;杜航 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/02;G06N5/00 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 劉妮 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 平均 獎賞 強化 學習 mto 企業 訂單 接受 方法 | ||
本發明公開一種基于平均獎賞強化學習的MTO企業訂單接受方法,包括以下步驟:訂單信息假設、確定系統狀態集、確定系統動作集、確定立即回報函數、構建訂單接受模型和訂單接受模型求解;本發明在傳統MTO企業訂單接受問題考慮的因素基礎上,增加了訂單庫存成本及多種顧客優先級因素,構建了半馬爾科夫決策過程訂單接受模型,運用SMART算法進行求解,并在此基礎上,對已接受的訂單運用貪心算法進行排序生產,以最大化企業長期平均收益,不僅有較高的訂單接受選擇能力,而且對環境變化具有較好的適應能力,能夠權衡訂單利潤與各項成本為MTO企業帶來更高的收益,同時還能滿足客戶的個性化需求,與客戶保持密切的聯系。
技術領域
本發明涉及企業訂單接受選擇技術領域,尤其涉及一種基于平均獎賞強化學習的MTO企業訂單接受方法。
背景技術
所謂MTO企業,是指企業根據客戶訂單而進行生產的企業,不同的客戶對訂單的類型有著不同的需求,MTO企業根據客戶提出的訂單需求,對訂單進行組織和生活生產,在通常情況下,企業的產能是有限的,而且加上各種成本因素的限制,企業不可能接受所有客戶的訂單,這就需要MTO企業制定相應的訂單接受方法,一個MTO企業的成功很大程度上取決于訂單接受方法的選擇性,一個好的訂單接受方法對企業的長期利潤發揮著巨大的作用;
從已有研究來看,有關訂單接受問題的決策方法已經取得了一些成果,但隨著電子商務的蓬勃發展,消費者的個性化需求越來越明顯,傳統的生產企業在進行產品生產時通常不直接聯系終端顧客,在面臨顧客的需求多樣化時,難以滿足其需求,且已有的一些訂單接受方法在建模的過程中考慮的因素不全面,從而無法有效根據企業生產能力和訂單狀態確定訂單接受策略,因此,本發明提出一種基于平均獎賞強化學習的MTO企業訂單接受方法以解決現有技術中存在的問題。
發明內容
針對上述問題,本發明的目的在于提出一種基于平均獎賞強化學習的MTO企業訂單接受方法,該方法在傳統MTO企業訂單接受問題考慮的因素基礎上,增加了訂單庫存成本及多種顧客優先級因素,構建了半馬爾科夫決策過程訂單接受模型,運用SMART算法進行求解,并在此基礎上,對已接受的訂單運用貪心算法進行排序生產,以最大化企業長期平均收益。
為了實現本發明的目的,本發明通過以下技術方案實現:一種基于平均獎賞強化學習的MTO企業訂單接受方法,包括以下步驟:
步驟一:訂單信息假設
假設MTO企業通過單一生產線生產,且市場上存在n種類型的顧客訂單,訂單信息包括顧客優先級μ、價格p、數量Q、單位產品生產成本c、提前期LT及最遲交貨期DT;
步驟二:確定系統狀態集
根據步驟一,若系統中有n種訂單類型,則系統狀態可由向量S表示:S=(μ,p,Q,LT,DT,T),其中T表示決策階段之前已接受的訂單仍需要的生產時間;
步驟三:確定系統動作集
根據步驟一,當有顧客訂單到達時,需要做出接受和拒絕訂單的決策,模型中的動作集合可由向量A=(a1,a2)表示,其中a1表示接受訂單,a2表示拒絕訂單;
步驟四:確定立即回報函數
MTO企業在做出是否接受訂單決策后,獲得的立即回報函數為:
公式中I=p*Q,表示獲得該訂單的利潤,C=c*Q,表示消耗的生產成本,Y表示企業的延期懲罰成本,N表示產生庫存成本的費用,J表示訂單的拒絕成本;
步驟五:構建訂單接受模型
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110468897.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





