[發明專利]任務下發方法、裝置、電子設備及可讀存儲介質有效
| 申請號: | 202110393193.1 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN112801430B | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 馮偉;武曉飛;王文彬 | 申請(專利權)人: | 貝殼找房(北京)科技有限公司 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00;G06Q10/04;G06Q10/06;G06K9/62;G06F30/27;G06N7/00;G06F111/04;G06F111/08;G06F119/12 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 楊云云 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 任務 下發 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種任務下發方法,其特征在于,包括:
獲取目標助手的待下發任務列表,所述待下發任務列表中的每個待下發任務均關聯有備選處理人列表;
以所述備選處理人列表所關聯的處理人為粒度,確定動態環境,并基于所述動態環境,利用馬爾科夫決策模型,確定所述待下發任務列表中目標任務將被下發給的目標處理人;
其中,所述馬爾科夫決策模型為通過確定所述所關聯的處理人的狀態空間和收益,并通過將任務觸發的整體決策時間離散化來擬合強化學習場景獲取的;
在所述利用馬爾科夫決策模型,確定所述待下發任務列表中目標任務將被下發給的目標處理人之前,所述方法還包括:
根據當前時刻和所述所關聯的處理人在所述當前時刻可執行的任務數,確定所述所關聯的處理人的狀態空間,并根據所述待下發任務的被執行情況,確定所述所關聯的處理人的動作集合;
通過將任務觸發的所述整體決策時間離散化,對所述狀態空間和所述動作集合進行降維處理,并基于降維后的狀態空間和降維后的動作集合,確定所述所關聯的處理人的期望收益函數;
根據任務下發的實際應用場景,確定約束條件,并基于所述約束條件,確定約束條件下的決策目標函數;
基于所述降維后的狀態空間、所述降維后的動作集合、所述期望收益函數和所述決策目標函數,構建所述馬爾科夫決策模型;
其中,所述構建所述馬爾科夫決策模型,包括:
構建(time, chance, [任務包中任務特征], [處理人屬性特征])形式的樣本數據,其中,time表示當前時刻,chance表示所述所關聯的處理人在所述當前時刻可執行的任務數;
根據所述所關聯的處理人歷史已發生的日志數據,計算所述樣本數據的決策收益,并以所述決策收益作為所述樣本數據的標簽;
基于所述降維后的狀態空間、所述降維后的動作集合、所述期望收益函數和所述決策目標函數,通過xgboost模型擬合所述所關聯的處理人執行任務時的收益情況,構建初始馬爾科夫決策模型;
基于所述樣本數據和所述標簽,訓練所述初始馬爾科夫決策模型,構建所述馬爾科夫決策模型。
2.根據權利要求1所述的任務下發方法,其特征在于,所述通過將任務觸發的整體決策時間離散化,對所述狀態空間和所述動作集合進行降維處理,包括:
確定所述整體決策時間和決策周期,并基于所述決策周期,將所述整體決策時間離散化,獲取離散的時間索引;
將所述狀態空間中狀態變量中的所述當前時刻替換為對應的所述時間索引,獲取所述降維后的狀態空間;
將所述動作集合中所述當前時刻對應的動作變量替換為對應的所述時間索引對應的動作變量,獲取所述降維后的動作集合。
3.根據權利要求1或2所述的任務下發方法,其特征在于,基于所述降維后的狀態空間和所述降維后的動作集合,確定所述所關聯的處理人的所述期望收益函數,包括:
;
式中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貝殼找房(北京)科技有限公司,未經貝殼找房(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110393193.1/1.html,轉載請聲明來源鉆瓜專利網。





