[發明專利]一種基于強化學習的服務任務調度方法有效
| 申請號: | 202110623287.3 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113361912B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 曹斌;陳德勝;陳灝;李甜甜;范菁 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N3/08;G06N3/04 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 服務 任務 調度 方法 | ||
1.一種基于強化學習的服務任務調度方法,其特征在于,包含以下步驟:
步驟1)根據服務任務需求對服務任務進行建模,構建服務任務環境,包括:
步驟1.1)根據服務需求的可能范圍對服務任務需求環境進行隨機初始化;服務任務需求主要包括需要安排調度的天數、需要安排調度期間每日的服務任務需求量、可參與調度的服務人員數、參與調度的服務人員的能力值、服務人員最小連續工作天數、服務人員最大連續工作天數、需要安排調度的天數中每個參與調度的服務人員需要休息的次數、每個服務人員已經連續工作的天數;
步驟1.2)規定服務任務環境可選動作集合為A={休息,工作};
步驟1.3)服務任務環境對于每次服務人員調度安排前需要給出滿足服務任務需求的服務人員調度方式;計算服務人員滿足服務任務需求的調度方式的方法如下:
其中,c表示該服務人員已經連續工作的天數,l表示剩余需要調度安排的天數,M表示服務人員最大連續工作天數,m表示服務人員最小連續工作天數,r表示剩余需要調度的天數中該服務人員還需要休息的次數,xi為i天,表示連續工作i-1天后休息1天的安排;ti表示在剩余需要調度的天數中xi安排的可選次數;由此我們可以根據ti和c給出當前滿足服務任務需求的可選安排;
步驟1.4)根據服務任務需求定義服務任務環境的動作獎勵;
步驟1.5)服務任務環境從需要安排調度的第1天第1個服務人員開始調度安排,完成第1天的調度安排后再從第2天第1個服務人員開始,直到需要安排調度的最后一天完成后結束;服務任務環境在每一次安排前給出當前的服務任務環境狀態st,以及當前服務人員可選的滿足服務任務需求的調度安排A′,接收智能體對當前的調度安排a({a|a∈A}),給出當前安排的即時獎勵rt,并迭代環境到下一狀態st+1,重復這一安排過程直至環境到達結束狀態,即完成了整個服務任務的服務人員調度;
步驟2)使用ε-Greedy方法在步驟1)構建的服務任務環境中進行半隨機服務人員工作安排;
步驟3)基于步驟2)得到的服務人員工作安排,使用強化學習方法對不同工作安排的價值差異進行學習,并使用深度神經網絡Q近似不同調度安排的價值;
步驟4)基于步驟3)訓練得到的深度神經網絡Q,對服務人員不同調度安排的價值進行預測,選擇輸出較優的人員調度安排。
2.如權利要求1所述基于強化學習的服務任務調度方法,其特征在于,使用ε-Greedy進行半隨機人員工作安排:
步驟2.1)ε-Greedy方法如下:
通過產生一個[0,1)的隨機數,如果產生的隨機數小于ε則在當前可選動作集合A′中隨機選擇一個a作為當前的動作,即當前服務人員的調度安排;如果產生的隨機數不小于ε,則通過全連接深度神經網絡Q對當前狀態st下的不同的服務人員調度方式的價值進行預測,選取價值最大的服務人員調度方式作為當前服務人員的調度安排;
步驟2.2)將步驟2.1)中ε-Greedy產生的服務人員調度安排a輸入到步驟1)中的服務任務環境中,使服務任務環境執行調度安排a,給出即時獎勵rt,服務任務環境從st狀態轉移到st+1狀態,將狀態轉移元組(st,at,rt,st+1)存儲到記憶Memory Buffer中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110623287.3/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





