[發明專利]一種基于POMDP模型的眾包平臺任務分配方法有效
| 申請號: | 201811254337.X | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN109409739B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 劉峰;夏志偉;張弛;曾虎雙 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pomdp 模型 平臺 任務 分配 方法 | ||
1.一種基于POMDP模型的眾包平臺任務分配方法,該方法包括如下步驟:
1)準備階段
a)準備日常的數據,即歷史任務信息;
b)確定常數參數,包括工人等級數、任務種類數;
c)對歷史數據進行格式轉換,按照特定的數據格式,對數據進行預處理;
2)建模階段
a)根據應用的數據,確定POMDP模型中的簡單元素,包括狀態、動作、觀察、折扣因子;
b)根據數據集進行函數學習,完成POMDP模型中的復雜元素,包括收益函數、狀態轉移函數、觀察函數;
c)根據需要提供決策支持的任務種類,確定初始信念狀態;
d)將2-a)中的初步模型與2-b)中得到的函數以及2-c)中的初始信念狀態結合,得到最終的POMDP平臺模型;
e)根據標準POMDP模型文件的格式將POMDP平臺模型轉化為POMDP文件;
3)決策階段
a)使用POMDP求解程序求解2-e)中得到的POMDP文件,求解得到從信念狀態到動作映射的策略;
b)使用得到的決策,根據當前信念狀態得到最優動作;
c)執行最優動作,更新信念狀態信息,重復執行b)直至終止;
其中步驟1-c)所述的數據格式說明:
1)數據格式需要滿足特定的數據結構,首先定義的是一些集合;
任務種類集合T,工人等級集合L,任務完成質量集合Q={A,B,C,D},評估結果集合B={true,false};
2)以下是歷史信息的結構:
任務記錄集合M={m1,m2,...,mk}中的每個元素包含了一次任務的全部信息,每條任務記錄mi={P,t,r}有其對應任務執行過程集合P={p1,p2,...,pn}、任務種類t∈T以及任務請求方支付的酬勞對于每次任務執行過程pi=(ti,li,ci,bi),有對應的種類ti,工人等級li,支付的酬勞ci,評估結果bi;其中種類ti∈T,工人等級li∈L,支付酬勞關于評估結果bi,當i<n時,bi=false,當i=n時,bi=true;
其中步驟2-a)所述的模型說明:
1)狀態,其集合以下表示為S:
一共有兩種類型的狀態,一種是正在執行中的狀態(q,t),另一種是終止狀態,正在執行的狀態有兩個元素,完成質量q和任務種類t,因此正在執行中的狀態是種類和完成質量的笛卡爾積,數量是種類數乘以完成質量數,終止狀態表示任務被提交,已經返回給需求方;
2)動作,其集合以下表示為A:
一共有兩種類型的動作:分配和完成;
完成動作表示系統將任務終止,并返回給需求方;分配動作表示將任務分配給某一特定的工人群體,工人群體有兩個元素,種類t和等級l,因此分配動作的數量為種類數乘以等級數,這里工人的種類與任務種類相同;
3)觀察,其集合以下表示為Z:
一共有兩種觀察:true和false;
每次進行動作之后,眾包平臺都會對任務進行質量評估,評估通過則設觀察值為true,否則為false;其中2-b)的收益函數學習過程說明:
1)收益函數的格式為R:設轉移前狀態為s,動作為a,轉移后狀態為s’,關于動作a分情況討論;
2)如果動作a是分配動作,搜索動作a所對應的任務種類的所有任務執行記錄組成的集合Ma={m|m∈M,m的種類與a的種類相同},在集合Ma的任務執行過程中獲取與動作a對應工人等級相同的任務執行過程組成的集合Pa={p|p∈m.P,m∈M’,p的工人等級與a的工人等級相同},計算Pa平均支付酬勞,取負后為收益,如果Pa是空集,則設R為負無窮,即:
3)如果動作a是結束動作,如果狀態s為終止狀態,則R=0,否則有狀態s=(q,t)檢索狀態s所對應的任務種類中所有任務執行記錄組成的集合Ms={m|m∈M,m的種類與s的種類相同},計算其平均酬勞,如果Ms是空集,則報錯,發生數據缺失,即:
其中2-b)的狀態轉移函數學習過程說明:
τ:設轉移前狀態為s,動作為a,轉移后狀態為s’,概率分情況討論:
1)首先關于動作a分類討論,如果動作a為完成動作,那么任務必定進入終止狀態,即對s’=e,轉移概率τ=1,對s’≠e時,概率τ=0;
2)對于a是分配動作,關于轉移前狀態s分類討論,如果轉移前狀態s為終止狀態,那么類似情況1),轉移后狀態s’也一定是終止狀態;如果轉移前狀態s不是終止狀態,此時動作a是分配動作,那么轉移后狀態一定不是終止狀態,即對轉移后狀態為終止狀態,轉移概率τ=0;
3)最后一種情況是轉移前后狀態s和s’都不是終止狀態,動作a是分配動作;如果轉移前后狀態s和s’的任務種類不同,概率τ=0;對于轉移前后狀態s和s’狀態任務種類相同,這里使用歷史數據進行學習,學習過程如下:
4)對于任意的任務種類X,從M中取出所有任務種類為X的任務記錄的集合MX={m|m∈M,m的任務種類為X},關于所有m∈MX,考察執行序列P={p1,p2,...,pn},新設一個對應的躍遷集合U={u1,u2,...,un},其中ui表示pi發生了質量躍遷的概率,即質量發生了提高的概率;初始質量為D,最終質量為A,發生了3次躍遷;故有在執行了pn之后,必然發生了質量由B到A的躍遷,可以得到公式1,un=1,以及公式2,ui的值與pi對應的工人等級li相關,不同工人等級對應的ui與工人的平均酬勞線性相關,即可得公式3,uH∶uM∶uL=RH∶RM∶RL,其中RH,RM,RL的計算方法為收益函數中分配動作的計算方法,聯立公式1、公式2和公式3可解得所有ui,然后對于所有的m∈MX中對應uH,uM,uL求均值,得到最終的UH,UM,UL,在狀態轉移函數中,由動作a對應的工人等級l,得到其對應的質量躍遷概率ul,則對于轉移前狀態s,如果s的任務質量為A,則轉移后狀態質量為A的概率為1,其它狀態的概率為0,如果任務質量不為A,則狀態發生躍遷的概率為ul,保持原狀態的概率為1-ul,其它狀態的概率為0,即:
其中2-b)的觀察函數學習過程說明:
O:記動作為a,轉移后狀態為s,獲得的觀察為z;如果動作a是終止動作或狀態s是結束狀態,則觀察值為true的概率為1,為false的概率為0,如果動作a是分配動作,則狀態s是執行中狀態,此時觀察函數取決于狀態的完成質量q,關于q分情況討論:
當q∈{C,D}時,觀察值為true的概率為0,為false的概率是1;當q=B時,觀察值為true的概率為0.2,為false的概率是0.8,當q=A時,觀察值為true的概率為0.8,為false的概率是0.2;
其中2-c)的信念狀態說明:
1)信念狀態是信念空間上的一個概率分布,表示系統對當前狀態的判斷,用來作為決策的依據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811254337.X/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





