[發(fā)明專利]執(zhí)行任務(wù)的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110277850.6 | 申請(qǐng)日: | 2021-03-15 |
| 公開(公告)號(hào): | CN112990482A | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計(jì))人: | 車正平;徐志遠(yuǎn);伍堃;唐劍 | 申請(qǐng)(專利權(quán))人: | 北京嘀嘀無限科技發(fā)展有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 黃倩 |
| 地址: | 100193 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 執(zhí)行 任務(wù) 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本公開的實(shí)施例涉及用于執(zhí)行任務(wù)的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該方法包括利用針對(duì)多個(gè)任務(wù)預(yù)先訓(xùn)練的多個(gè)模型來分別執(zhí)行該多個(gè)任務(wù),以收集與該多個(gè)任務(wù)對(duì)應(yīng)的多組訓(xùn)練樣本。其中,多組訓(xùn)練樣本包括利用多個(gè)模型中的第一模型執(zhí)行多個(gè)任務(wù)中的第一任務(wù)而收集的第一組訓(xùn)練樣本。該方法還包括基于多組訓(xùn)練樣本,訓(xùn)練用于執(zhí)行多個(gè)任務(wù)的目標(biāo)模型,以使該目標(biāo)模型基于從多個(gè)任務(wù)中的第二任務(wù)獲取的第二狀態(tài)來確定第二任務(wù)要執(zhí)行的第二動(dòng)作。本公開的實(shí)施例通過將針對(duì)多個(gè)任務(wù)預(yù)先訓(xùn)練的多個(gè)模型的知識(shí)遷移到單個(gè)目標(biāo)模型上,使得該目標(biāo)模型能夠執(zhí)行多個(gè)任務(wù),從而有效降低模型部署開銷。
技術(shù)領(lǐng)域
本公開的實(shí)施例總體涉及機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及用于執(zhí)行任務(wù)的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)能夠在實(shí)際和復(fù)雜的控制任務(wù)中提供更好的性能。利用深度Q網(wǎng)絡(luò)(DQN)的深度強(qiáng)化學(xué)習(xí)(DRL)已經(jīng)在執(zhí)行各種離散控制任務(wù)(例如,游戲)上取得了巨大的成功。針對(duì)單個(gè)任務(wù),可以訓(xùn)練DRL模型(也稱為“代理”)以基于從該任務(wù)觀察到的狀態(tài)來確定該任務(wù)要執(zhí)行的動(dòng)作。盡管DRL在單個(gè)任務(wù)上的表現(xiàn)較好,但是訓(xùn)練單個(gè)DRL模型來執(zhí)行多個(gè)不同任務(wù)仍然具有挑戰(zhàn)性。
發(fā)明內(nèi)容
本公開的實(shí)施例提供了用于執(zhí)行任務(wù)的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
在本公開的第一方面,提供了一種執(zhí)行任務(wù)的方法。該方法包括利用針對(duì)多個(gè)任務(wù)預(yù)先訓(xùn)練的多個(gè)模型來分別執(zhí)行該多個(gè)任務(wù),以收集與該多個(gè)任務(wù)對(duì)應(yīng)的多組訓(xùn)練樣本。其中,多組訓(xùn)練樣本包括利用多個(gè)模型中的第一模型執(zhí)行多個(gè)任務(wù)中的第一任務(wù)而收集的第一組訓(xùn)練樣本。第一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本包括第一模型從第一任務(wù)獲取的第一狀態(tài)、基于第一狀態(tài)而確定的第一任務(wù)要執(zhí)行的第一動(dòng)作、在第一動(dòng)作被執(zhí)行后從第一任務(wù)獲取的獎(jiǎng)勵(lì)得分以及第一任務(wù)的下一狀態(tài)。該方法還包括基于多組訓(xùn)練樣本,訓(xùn)練用于執(zhí)行多個(gè)任務(wù)的目標(biāo)模型,以使該目標(biāo)模型基于從多個(gè)任務(wù)中的第二任務(wù)獲取的第二狀態(tài)來確定第二任務(wù)要執(zhí)行的第二動(dòng)作。
在本公開的第二方面,提供了一種執(zhí)行任務(wù)的裝置。該裝置包括:第一訓(xùn)練樣本收集模塊,被配置為利用針對(duì)多個(gè)任務(wù)預(yù)先訓(xùn)練的多個(gè)模型來分別執(zhí)行該多個(gè)任務(wù),以收集與該多個(gè)任務(wù)對(duì)應(yīng)的多組訓(xùn)練樣本,其中多組訓(xùn)練樣本包括利用多個(gè)模型中的第一模型執(zhí)行多個(gè)任務(wù)中的第一任務(wù)而收集的第一組訓(xùn)練樣本,第一組訓(xùn)練樣本中的每個(gè)訓(xùn)練樣本包括第一模型從第一任務(wù)獲取的第一狀態(tài)、基于第一狀態(tài)而確定的第一任務(wù)要執(zhí)行的第一動(dòng)作、在第一動(dòng)作被執(zhí)行后從第一任務(wù)獲取的獎(jiǎng)勵(lì)得分以及第一任務(wù)的下一狀態(tài);以及模型訓(xùn)練模塊,被配置為基于多組訓(xùn)練樣本,訓(xùn)練用于執(zhí)行多個(gè)任務(wù)的目標(biāo)模型,以使該目標(biāo)模型基于從多個(gè)任務(wù)中的第二任務(wù)獲取的第二狀態(tài)來確定第二任務(wù)要執(zhí)行的第二動(dòng)作。
在本公開的第三方面中,提供了一種計(jì)算設(shè)備,包括一個(gè)或多個(gè)處理器;以及存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí),使該計(jì)算設(shè)備實(shí)現(xiàn)根據(jù)本公開的第一方面所描述的方法的任意步驟。
在本公開的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序。該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開的第一方面所描述的方法的任意步驟。
在本公開的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開的第一方面所描述的方法的任意步驟。
提供發(fā)明內(nèi)容部分是為了以簡(jiǎn)化的形式來介紹對(duì)概念的選擇,它們?cè)谙挛牡木唧w實(shí)施方式中將被進(jìn)一步描述。發(fā)明內(nèi)容部分無意標(biāo)識(shí)本公開的關(guān)鍵特征或必要特征,也無意限制本公開的范圍。
附圖說明
通過結(jié)合附圖對(duì)本公開示例性實(shí)施例進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯,其中,在本公開示例性實(shí)施例中,相同的參考標(biāo)號(hào)通常代表相同部件。
圖1示出了本公開的實(shí)施例能夠在其中被實(shí)施的示例環(huán)境的框圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京嘀嘀無限科技發(fā)展有限公司,未經(jīng)北京嘀嘀無限科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277850.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 以注射方式執(zhí)行死刑的自動(dòng)執(zhí)行車的執(zhí)行床
- 過程執(zhí)行裝置、過程執(zhí)行方法以及過程執(zhí)行程序
- 用以執(zhí)行跳舞電子游戲的執(zhí)行系統(tǒng)及其執(zhí)行方法
- 策略執(zhí)行系統(tǒng)及其執(zhí)行方法
- 腳本執(zhí)行系統(tǒng)和腳本執(zhí)行方法
- 命令執(zhí)行設(shè)備、命令執(zhí)行系統(tǒng)、命令執(zhí)行方法以及命令執(zhí)行程序
- 程序執(zhí)行裝置、程序執(zhí)行系統(tǒng)以及程序執(zhí)行方法
- 處理執(zhí)行設(shè)備和由該處理執(zhí)行設(shè)備執(zhí)行的方法
- 有序任務(wù)的執(zhí)行方法、執(zhí)行裝置和執(zhí)行系統(tǒng)
- 執(zhí)行器(閥門執(zhí)行器)
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





