[發明專利]一種基于強化學習的任務分配方法在審
| 申請號: | 202010634907.9 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111861159A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 徐連;王薇 | 申請(專利權)人: | 武漢實為信息技術股份有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 胡琦旖 |
| 地址: | 430000 湖北省武漢市江漢*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 任務 分配 方法 | ||
本發明屬于強化學習技術領域,公開了一種基于強化學習的任務分配方法,包括收集獲取員工信息、任務信息;根據員工信息、任務信息建立強化學習模型,初始化Q矩陣、狀態向量S、行動向量A、獎勵矩陣R,設置超參數,進行Q矩陣的迭代計算;利用強化學習模型更新員工的當前任務分配閾值;根據每個員工的當前任務分配閾值、當前分配到的任務數量得到每個員工的權重信息;根據待分配任務的所有員工的權重信息進行新任務的分配。本發明解決了現有技術中基于人力成本的任務分配方法無法高效合理地進行任務分配的問題,能夠通過強化學習的方法在線自動地進行任務分配,解決人工任務分配存在的弊端。
技術領域
本發明涉及強化學習技術領域,尤其涉及一種基于強化學習的任務分配方法。
背景技術
任務分配是一個企業機構辦公時必須面對的問題,很多領域(例如咨詢領域)的任務往往不是重復性的,及其需要工作人員的智力與經驗,且耗時較長,不同的任務耗時也不一樣,難以量化。具體的,例如大型咨詢公司因為專業人員多且專業分布廣,每個員工的工作任務較為專一,從而在任務分配上比較簡單。而小型公司部門少,人員少,項目經驗涉獵較少,且不同員工之間對于一個新到達的任務往往沒辦法找到最優的分配辦法。大型咨詢領域的公司傳統的任務分配往往由部門主管來簡單地根據員工特長進行選擇分配,或者隨機分配,這種需要人力成本的任務分配方法只能達到一個比較一般的效果。然而咨詢領域的中小企業很難進行任務分配,因為每個員工都需要負責項目中的多個部分,不同員工間的擅長領域往往有交叉,人力成本的任務分配方法不夠有效。且小公司人員變動很大,新老員工交替較快,公司缺乏對新員工的考量,從而也無法高效合理地進行任務分配。
強化學習用于描述和解決智能體在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題,如果智能體的某個行為策略導致環境正的獎賞(強化信號),那么智能體以后產生這個行為策略的趨勢便會加強。智能體的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。強化學習可以根據每個人在公司中的工作經歷來學習任務分配的方法從而可以高效自動地進行任務分配。避免了不夠合理的人力手動分配。通過將強化學習技術應用到某些領域(例如咨詢領域)的任務分配上,可以有效地提高相關領域公司(例如咨詢領域公司)完成用戶要求的任務的效率。
發明內容
本申請實施例通過提供一種基于強化學習的任務分配方法,解決了現有技術中基于人力成本的任務分配方法無法高效合理地進行任務分配的問題。
本申請實施例提供一種基于強化學習的任務分配方法,包括以下步驟:
步驟1、收集獲取員工信息、任務信息;
步驟2、根據所述員工信息、所述任務信息建立強化學習模型,初始化Q矩陣、狀態向量S、行動向量A、獎勵矩陣R,設置超參數,進行Q矩陣的迭代計算;
步驟3、利用強化學習模型更新員工的當前任務分配閾值;
步驟4、根據每個員工的當前任務分配閾值、當前分配到的任務數量得到每個員工的權重信息;根據待分配任務的所有員工的權重信息進行新任務的分配。
優選的,所述步驟1中,所述員工信息包括員工正在進行的任務數量、員工的當前任務分配閾值;所述任務信息包括任務的分配情況信息、任務的進行情況信息。
優選的,所述步驟2中,所述強化學習模型基于Q學習算法;
所述Q矩陣為二維矩陣,行為狀態空間,列為動作空間;每一行對應一種任務分配閾值狀態,每一列對應一種行動;行動包括代表任務分配閾值減一的第一行動A1、代表任務分配閾值不變的第二行動A2、代表任務分配閾值加一的第三行動A3;初始化時將所述Q矩陣的值設為0;
所述獎勵矩陣R中的每個元素分別代表一種任務分配閾值狀態對應的獎勵值;初始化時將所述獎勵矩陣R設為:在狀態為預設任務分配閾值的位置取值為1,其余位置取值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢實為信息技術股份有限公司,未經武漢實為信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010634907.9/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





