[發明專利]一種基于強化學習的任務分配方法在審

申請號：	202010634907.9	申請日：	2020-07-03
公開（公告）號：	CN111861159A	公開（公告）日：	2020-10-30
發明（設計）人：	徐連;王薇	申請（專利權）人：	武漢實為信息技術股份有限公司
主分類號：	G06Q10/06	分類號：	G06Q10/06
代理公司：	武漢科皓知識產權代理事務所(特殊普通合伙) 42222	代理人：	胡琦旖
地址：	430000 湖北省武漢市江漢***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于強化學習任務分配方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明屬于強化學習技術領域，公開了一種基于強化學習的任務分配方法，包括收集獲取員工信息、任務信息；根據員工信息、任務信息建立強化學習模型，初始化Q矩陣、狀態向量S、行動向量A、獎勵矩陣R，設置超參數，進行Q矩陣的迭代計算；利用強化學習模型更新員工的當前任務分配閾值；根據每個員工的當前任務分配閾值、當前分配到的任務數量得到每個員工的權重信息；根據待分配任務的所有員工的權重信息進行新任務的分配。本發明解決了現有技術中基于人力成本的任務分配方法無法高效合理地進行任務分配的問題，能夠通過強化學習的方法在線自動地進行任務分配，解決人工任務分配存在的弊端。

技術領域

本發明涉及強化學習技術領域，尤其涉及一種基于強化學習的任務分配方法。

背景技術

任務分配是一個企業機構辦公時必須面對的問題，很多領域(例如咨詢領域)的任務往往不是重復性的，及其需要工作人員的智力與經驗，且耗時較長，不同的任務耗時也不一樣，難以量化。具體的，例如大型咨詢公司因為專業人員多且專業分布廣，每個員工的工作任務較為專一，從而在任務分配上比較簡單。而小型公司部門少，人員少，項目經驗涉獵較少，且不同員工之間對于一個新到達的任務往往沒辦法找到最優的分配辦法。大型咨詢領域的公司傳統的任務分配往往由部門主管來簡單地根據員工特長進行選擇分配，或者隨機分配，這種需要人力成本的任務分配方法只能達到一個比較一般的效果。然而咨詢領域的中小企業很難進行任務分配，因為每個員工都需要負責項目中的多個部分，不同員工間的擅長領域往往有交叉，人力成本的任務分配方法不夠有效。且小公司人員變動很大，新老員工交替較快，公司缺乏對新員工的考量，從而也無法高效合理地進行任務分配。

強化學習用于描述和解決智能體在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題，如果智能體的某個行為策略導致環境正的獎賞(強化信號)，那么智能體以后產生這個行為策略的趨勢便會加強。智能體的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。強化學習可以根據每個人在公司中的工作經歷來學習任務分配的方法從而可以高效自動地進行任務分配。避免了不夠合理的人力手動分配。通過將強化學習技術應用到某些領域(例如咨詢領域)的任務分配上，可以有效地提高相關領域公司(例如咨詢領域公司)完成用戶要求的任務的效率。

發明內容

本申請實施例通過提供一種基于強化學習的任務分配方法，解決了現有技術中基于人力成本的任務分配方法無法高效合理地進行任務分配的問題。

本申請實施例提供一種基于強化學習的任務分配方法，包括以下步驟：

步驟1、收集獲取員工信息、任務信息；

步驟2、根據所述員工信息、所述任務信息建立強化學習模型，初始化Q矩陣、狀態向量S、行動向量A、獎勵矩陣R，設置超參數，進行Q矩陣的迭代計算；

步驟3、利用強化學習模型更新員工的當前任務分配閾值；

步驟4、根據每個員工的當前任務分配閾值、當前分配到的任務數量得到每個員工的權重信息；根據待分配任務的所有員工的權重信息進行新任務的分配。

優選的，所述步驟1中，所述員工信息包括員工正在進行的任務數量、員工的當前任務分配閾值；所述任務信息包括任務的分配情況信息、任務的進行情況信息。

優選的，所述步驟2中，所述強化學習模型基于Q學習算法；

所述Q矩陣為二維矩陣，行為狀態空間，列為動作空間；每一行對應一種任務分配閾值狀態，每一列對應一種行動；行動包括代表任務分配閾值減一的第一行動A₁、代表任務分配閾值不變的第二行動A₂、代表任務分配閾值加一的第三行動A₃；初始化時將所述Q矩陣的值設為0；

所述獎勵矩陣R中的每個元素分別代表一種任務分配閾值狀態對應的獎勵值；初始化時將所述獎勵矩陣R設為：在狀態為預設任務分配閾值的位置取值為1，其余位置取值為0。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。