[發(fā)明專利]執(zhí)行任務(wù)的方法、裝置、設(shè)備和計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110277850.6 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN112990482A | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計)人: | 車正平;徐志遠;伍堃;唐劍 | 申請(專利權(quán))人: | 北京嘀嘀無限科技發(fā)展有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 黃倩 |
| 地址: | 100193 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 執(zhí)行 任務(wù) 方法 裝置 設(shè)備 計算機 可讀 存儲 介質(zhì) | ||
1.一種執(zhí)行多個任務(wù)的方法,包括:
利用針對多個任務(wù)預先訓練的多個模型來分別執(zhí)行所述多個任務(wù),以收集與所述多個任務(wù)對應(yīng)的多組訓練樣本,
其中所述多組訓練樣本包括利用所述多個模型中的第一模型執(zhí)行所述多個任務(wù)中的第一任務(wù)而收集的第一組訓練樣本,所述第一組訓練樣本中的每個訓練樣本包括所述第一模型從所述第一任務(wù)獲取的第一狀態(tài)、基于所述第一狀態(tài)而確定的所述第一任務(wù)要執(zhí)行的第一動作、在所述第一動作被執(zhí)行后從所述第一任務(wù)獲取的獎勵得分以及所述第一任務(wù)的下一狀態(tài);以及
基于所述多組訓練樣本,訓練用于執(zhí)行所述多個任務(wù)的目標模型,以使所述目標模型基于從所述多個任務(wù)中的第二任務(wù)獲取的第二狀態(tài)來確定所述第二任務(wù)要執(zhí)行的第二動作。
2.根據(jù)權(quán)利要求1所述的方法,還包括:
利用經(jīng)訓練的所述目標模型來執(zhí)行所述多個任務(wù),以收集與所述多個任務(wù)對應(yīng)的多組新訓練樣本;以及
基于所述多組新訓練樣本,更新所述目標模型。
3.根據(jù)權(quán)利要求2所述的方法,其中:
所述多個模型中的每個模型包括表演者網(wǎng)絡(luò)和至少一個評論者網(wǎng)絡(luò),所述表演者網(wǎng)絡(luò)基于所述多個任務(wù)中的對應(yīng)任務(wù)的狀態(tài)來生成所述對應(yīng)任務(wù)的動作,并且所述至少一個評論者網(wǎng)絡(luò)針對所述對應(yīng)任務(wù)的狀態(tài)和動作進行評價;并且
所述目標模型包括目標表演者網(wǎng)絡(luò)和至少一個目標評論者網(wǎng)絡(luò),所述目標表演者網(wǎng)絡(luò)基于所述多個任務(wù)中的一個任務(wù)的狀態(tài)來生成所述任務(wù)的動作,并且所述至少一個目標評論者網(wǎng)絡(luò)針對所述任務(wù)的狀態(tài)和動作進行評價。
4.根據(jù)權(quán)利要求3所述的方法,其中訓練所述目標模型包括:
基于所述多組訓練樣本,確定用于訓練所述至少一個目標評論者網(wǎng)絡(luò)的第一目標函數(shù),所述第一目標函數(shù)用于衡量所述至少一個評論者網(wǎng)絡(luò)和所述至少一個目標評論者網(wǎng)絡(luò)針對相同狀態(tài)和相同動作的評價之間的差異;以及
基于所述第一目標函數(shù),訓練所述至少一個目標評論者網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求4所述的方法,其中訓練所述目標模型還包括:
基于所述至少一個評論者網(wǎng)絡(luò)對所述目標表演者網(wǎng)絡(luò)所生成的動作的評價,確定用于訓練所述目標表演者網(wǎng)絡(luò)的第二目標函數(shù);以及
基于所述第二目標函數(shù),訓練所述目標表演者網(wǎng)絡(luò)。
6.根據(jù)權(quán)利要求3所述的方法,其中更新所述目標模型包括:
基于所述多組新訓練樣本,確定用于更新所述至少一個目標評論者網(wǎng)絡(luò)的第三目標函數(shù),所述第三目標函數(shù)用于衡量所述至少一個目標評論者網(wǎng)絡(luò)所生成的評價和目標評價之間的差異;以及
基于所述第三目標函數(shù),更新所述至少一個目標評論者網(wǎng)絡(luò)。
7.根據(jù)權(quán)利要求6所述的方法,其中更新所述目標模型還包括:
基于所述至少一個評論者網(wǎng)絡(luò)和所述至少一個目標評論者網(wǎng)絡(luò)兩者對所述目標表演者網(wǎng)絡(luò)所生成的動作的相應(yīng)評價,確定用于更新所述目標表演者網(wǎng)絡(luò)的第四目標函數(shù);以及
基于所述第四目標函數(shù),更新所述目標表演者網(wǎng)絡(luò)。
8.一種計算設(shè)備,包括:
一個或多個處理器;以及
存儲器,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使所述計算設(shè)備實現(xiàn)根據(jù)權(quán)利要求1-7中任一項所述的方法的步驟。
9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-7中任一項所述的方法的步驟。
10.一種計算機程序產(chǎn)品,包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-7中任一項所述的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京嘀嘀無限科技發(fā)展有限公司,未經(jīng)北京嘀嘀無限科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277850.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 以注射方式執(zhí)行死刑的自動執(zhí)行車的執(zhí)行床
- 過程執(zhí)行裝置、過程執(zhí)行方法以及過程執(zhí)行程序
- 用以執(zhí)行跳舞電子游戲的執(zhí)行系統(tǒng)及其執(zhí)行方法
- 策略執(zhí)行系統(tǒng)及其執(zhí)行方法
- 腳本執(zhí)行系統(tǒng)和腳本執(zhí)行方法
- 命令執(zhí)行設(shè)備、命令執(zhí)行系統(tǒng)、命令執(zhí)行方法以及命令執(zhí)行程序
- 程序執(zhí)行裝置、程序執(zhí)行系統(tǒng)以及程序執(zhí)行方法
- 處理執(zhí)行設(shè)備和由該處理執(zhí)行設(shè)備執(zhí)行的方法
- 有序任務(wù)的執(zhí)行方法、執(zhí)行裝置和執(zhí)行系統(tǒng)
- 執(zhí)行器(閥門執(zhí)行器)





