[發明專利]一種基于強化學習的服務任務調度方法有效
| 申請號: | 202110623287.3 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113361912B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 曹斌;陳德勝;陳灝;李甜甜;范菁 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N3/08;G06N3/04 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 服務 任務 調度 方法 | ||
本發明公開了一種基于強化學習的服務任務調度方法,能對一段較長時間內的服務任務需求下的服務人員調度給出較為合理的安排。首先根據服務任務需求對服務任務進行數學建模,構建服務任務環境。然后使用ε?Greedy方法在服務任務環境中進行半隨機服務人員工作安排,同時使用強化學習方法對半隨機人員工作安排過程進行學習,即從不同調度安排之間的價值差異中進行學習,使深度神經網絡近似不同調度安排的價值。最后通過使用深度神經網絡對實際服務任務需求下不同調度安排的價值進行預測,然后選擇輸出較優的滿足服務任務需求的服務人員調度安排的班表。本發明構建的基于強化學習的服務任務調度方法具有安排速度快、任務班表安排合理的特點。
技術領域
本發明屬于運籌優化管理領域,尤其涉及一種基于強化學習的服務任務調度方法。
技術背景
服務任務調度技術是一項在服務任務需求下的服務人員調度技術,即在一段時間內,給定每日的服務任務需求量、服務任務需求的約束條件、可調度的服務人員信息,給出符合每日服務任務需求量且滿足服務任務需求約束條件的服務人員調度安排的技術。
強化學習是一種機器學習方法,主要包括智能體、環境兩大實體。智能體在環境中選擇不同動作進行“嘗試”和“試錯”,獲得環境的獎勵,通過對不同狀態下采取不同動作所獲得的獎勵值進行學習,進而優化在不同狀態下的動作選擇策略,最終使得智能體最大化獲得的獎勵。
近年來,隨著深度強化學習的發展,強化學習在解決組合優化問題方面快速發展。強化學習方法對組合優化問題進行建模得到環境,在環境中進行學習訓練,最終得到一個解決對應組合優化問題的動作選擇策略。通過動作選擇策略在不同情況下直接輸出動作的方式,強化學習方法可以快速給出對應組合優化問題的解。
傳統的服務任務調度技術主要使用啟發式搜索方法或遺傳算法的方法。其中基于啟發式搜索方法主要依靠人為經驗制定啟發式策略,利用啟發式策略進行優化搜索。其搜索效率、搜索效果直接取決于制定的啟發式策略,但一個優秀啟發式策略制定困難且受限于策略制定人的認知。遺傳算法主要是模擬自然界生物進化的方式通過染色體選擇、交叉、變異等過程,尋求較優解的方法。由于變異的隨機性,該方法在變異過程中可能產生違反服務任務需求的染色體,導致最終結果不滿足服務任務需求,或由于在服務任務需求的相關約束條件的選擇下染色體難以“進化”的問題,并且對于每次求解都需要長時間的仿真模擬計算。
發明內容
本發明的目的在于針對現有技術的不足,提供一種基于強化學習的服務任務調度方法.
本發明的目的是通過以下技術方案來實現的:一種基于強化學習的服務任務調度方法,包含以下步驟:
1)對服務任務進行建模,構建服務任務環境。
2)使用ε-Greedy方法在步驟1)構建的服務任務環境中進行半隨機服務人員工作安排。
3)基于步驟2)得到的服務人員工作安排,使用強化學習方法對不同工作安排的價值差異進行學習,并使用深度神經網絡Q近似不同調度安排的價值。
4)基于步驟3)訓練得到的深度神經網絡Q,對服務人員不同調度安排的價值進行預測,選擇輸出較優的人員調度安排,即班表。
進一步地,所述步驟1)中,根據服務任務需求對服務任務建模,構建服務任務環境方法:
1.1)根據服務需求的可能范圍對服務任務需求環境進行隨機初始化。服務任務需求主要包括需要安排調度的天數、需要安排調度期間每日的服務任務需求量、可參與調度的服務人員數、參與調度的服務人員的能力值、服務人員最小連續工作天數、服務人員最大連續工作天數、需要安排調度的天數中每個參與調度的服務人員需要休息的次數、每個服務人員已經連續工作的天數。
1.2)規定服務任務環境可選動作集合為A={休息,工作},即服務人員調度方式為休息或工作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110623287.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





