[發明專利]一種接單輔助決策的聯邦強化學習方法有效
| 申請號: | 202110010968.2 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112801731B | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 冷杰武;張虎;劉強;阮國磊;蘇倩怡;王德文;周滿 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06N20/20 |
| 代理公司: | 佛山市禾才知識產權代理有限公司 44379 | 代理人: | 曹振;羅凱欣 |
| 地址: | 510062 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輔助 決策 聯邦 強化 學習方法 | ||
本發明公開了一種接單輔助決策的聯邦強化學習方法,各智能體分別收集歷史訂單數據,將歷史訂單數據作為訓練數據;建立環境模型,各智能體建立本地決策模型,環境模型設有獎勵函數,環境模型對本地決策模型的接受或拒絕動作做出相應的獎勵;各智能體各自利用訓練數據對本地決策模型進行訓練;各智能體將訓練過程中的所得到的梯度信息加密成加密信息,然后發送至聚合方;聚合方接受各智能體的加密信息,然后解密得到各智能體的梯度信息,聚合方對所有的智能體的梯度信息進行整合,并訓練聚合模型,然后將訓練后的聚合模型發送至各個智能體。本發明能夠在保護各方隱私數據不泄露的情況下,利用各智能體的數據建立聚合模型。
技術領域
本發明涉及信息技術領域,尤其涉及一種接單輔助決策的聯邦強化學習方法。
背景技術
目前,企業的訂單接受決策一般由銷售部門負責,目標是盡可能多的利潤,在一段時間內,客戶訂單分散的隨機動態達到,后續訂單什么時間到達以及訂單的特性都不能提前獲知。為了對現有客戶訂單進行實時反饋,需要在后續訂單還沒到達時就做出實時決策。此時若一味接受已有訂單,則有可能由于產能、交貨期等條件的約束而無法在未來接受更有價值的訂單,從而造成客戶流失,損失利潤。若為后續訂單預留產能,則可能造成一定的產能浪費。目前并沒有一種能夠在現有環境下聯合多方,在并不泄露數據隱私的情況下,對企業的決策模型進行訓練的方法。
發明內容
本發明的目的在于提出一種接單輔助決策的聯邦強化學習方法,以解決上述問題。
為達此目的,本發明采用以下技術方案:
一種基于聯邦強化學習的接單輔助決策方法,包括:
數據采集和處理,各智能體分別收集歷史訂單數據,然后提取歷史訂單數據的屬性,將所述歷史訂單數據作為訓練數據;
建立模型,根據歷史訂單數據建立環境模型,各所述智能體建立本地決策模型,所述環境模型模擬當前狀態S;所述環境模型設有獎勵函數,當所述本地決策模型根據當前狀態S對新訂單做出接受或拒絕動作后,環境模型對所述本地決策模型的接受或拒絕動作做出相應的獎勵;
訓練本地決策模型,各所述智能體各自利用所述訓練數據對所述本地決策模型進行訓練;
聯合各方數據進行聯邦強化學習,各智能體將訓練過程中的所得到的梯度信息加密成加密信息,然后發送至聚合方;所述聚合方接受各智能體的加密信息,然后解密得到各智能體的梯度信息,所述聚合方對所有的智能體的梯度信息進行整合,并訓練聚合模型,然后將訓練后的聚合模型發送至各個智能體。
優選地,依次按照以下步驟進行聯邦強化學習:
步驟A、各個所述智能體分別根據對所述環境模型的觀察結果進行動作決策;
步驟B、所述環境模型向所述智能體反饋結果,反饋結果包括新的狀態St+1和獎勵;
步驟C、各個所述智能體將得到的反饋結果放入各自的所述強化學習算法中對所述本地決策模型進行強化學習訓練,并計算中間結果,然后將所述中間結果加密并發送給所述聚合方;
步驟D、所述聚合方對所有的中間結果進行解密,并使用全部聚合的梯度信息對聚合模型進行訓練;
步驟E、聚合方將訓練后的聚合模型發送給各個所述智能體。
優選地,當所述本地決策模型作出接受動作,所述環境模型計算立即接受訂單的獎勵ra:
其中,R為訂單利潤,Tw為完工期,b為訂單成本,c為訂單碳耗量,Ty為延期時間,w為延期單位懲罰,J為客戶等級;
當所述本地決策模型作出拒絕動作后,所述環境模型給予的獎勵為0或者所述環境模型根據客戶等級給予懲罰。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110010968.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種農田用防傾倒稻草人
- 下一篇:一種水庫用防汛預警裝置





