[發(fā)明專利]使用超模型的探索在審

申請?zhí)枺?/td>	202080062843.8	申請日：	2020-09-25
公開（公告）號(hào)：	CN114341895A	公開（公告）日：	2022-04-12
發(fā)明（設(shè)計(jì)）人：	B.范羅伊;陸修遠(yuǎn);V.R.德瓦拉切爾拉;Z.溫;M.伊布拉希米;I.D.M.奧斯本	申請（專利權(quán)）人：	淵慧科技有限公司
主分類號(hào)：	G06N20/00	分類號(hào)：	G06N20/00
代理公司：	北京市柳沈律師事務(wù)所 11105	代理人：	金玉潔
地址：	英國***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	使用模型探索
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種用于選擇要由與環(huán)境交互的代理執(zhí)行的動(dòng)作的方法，所述方法包括，在多個(gè)時(shí)間步驟中的每個(gè)時(shí)間步驟處：

根據(jù)可能索引變量的連續(xù)空間上的概率分布，從所述可能索引變量的連續(xù)空間采樣一個(gè)或多個(gè)索引變量；

對于所述一個(gè)或多個(gè)索引變量中的每個(gè)索引變量：

根據(jù)超模型的多個(gè)參數(shù)值使用所述超模型處理所述索引變量，以生成指定環(huán)境模型的多個(gè)參數(shù)值的超模型輸出；并且

根據(jù)由所述超模型輸出為所述索引變量指定的所述環(huán)境模型的多個(gè)參數(shù)值，使用所述環(huán)境模型生成動(dòng)作選擇輸出；以及

使用針對所述一個(gè)或多個(gè)索引變量的一個(gè)或多個(gè)動(dòng)作選擇輸出來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作。

2.根據(jù)權(quán)利要求1所述的方法，其中，根據(jù)由所述超模型輸出為所述索引變量指定的所述環(huán)境模型的多個(gè)參數(shù)值，使用所述環(huán)境模型生成動(dòng)作選擇輸出包括，對于能夠由所述代理執(zhí)行的可能動(dòng)作集合中的每個(gè)動(dòng)作：

使用所述環(huán)境模型處理包括指定所述動(dòng)作的數(shù)據(jù)的輸入，以生成對所述代理將會(huì)接收到的獎(jiǎng)勵(lì)的估計(jì)，作為執(zhí)行所述動(dòng)作的結(jié)果。

3.根據(jù)權(quán)利要求2所述的方法，其中，所述輸入還包括表征在所述時(shí)間步驟處的所述環(huán)境的當(dāng)前狀態(tài)的觀測。

4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法，其中，使用針對所述一個(gè)或多個(gè)索引變量的一個(gè)或多個(gè)動(dòng)作選擇輸出來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作包括使用湯普森采樣技術(shù)來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作。

5.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法，其中，使用針對所述一個(gè)或多個(gè)索引變量的一個(gè)或多個(gè)動(dòng)作選擇輸出來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作包括使用信息引導(dǎo)采樣(IDS)技術(shù)來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作。

6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法，其中，所述可能索引變量的連續(xù)空間上的概率分布包括連續(xù)概率分布。

7.根據(jù)權(quán)利要求6所述的方法，其中，所述可能索引變量的空間包括n維歐幾里得空間，并且所述可能索引變量的空間上的概率分布是單位正態(tài)分布。

8.根據(jù)權(quán)利要求6所述的方法，其中，所述可能索引變量的空間包括超球面，并且所述可能索引變量的空間上的概率分布是均勻分布。

9.根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的方法，其中，所述超模型包括線性模型。

10.根據(jù)權(quán)利要求9所述的方法，其中，使用所述超模型處理所述索引變量以生成指定所述環(huán)境模型的多個(gè)參數(shù)值的輸出包括：

計(jì)算(i)由所述超模型的參數(shù)指定的矩陣與(ii)所述索引變量之間的乘積；以及

計(jì)算(i)所述乘積的結(jié)果與(ii)由所述超模型的參數(shù)指定的偏差向量的和。

11.根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的方法，其中，所述超模型包括神經(jīng)網(wǎng)絡(luò)模型，并且其中，對于所述神經(jīng)網(wǎng)絡(luò)模型的一層或多層，計(jì)算所述層的輸出包括將非線性激活函數(shù)應(yīng)用于所述層的中間輸出。

12.根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法，其中，所述環(huán)境模型包括線性模型。

13.根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法，其中，所述環(huán)境模型包括神經(jīng)網(wǎng)絡(luò)模型。

14.根據(jù)權(quán)利要求1-13中任一項(xiàng)所述的方法，其中，所述環(huán)境模型包括先驗(yàn)環(huán)境模型和差分環(huán)境模型。

15.根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法，還包括訓(xùn)練所述多個(gè)超模型參數(shù)以優(yōu)化目標(biāo)函數(shù)，其中，所述目標(biāo)函數(shù)根據(jù)由超模型輸出指定的多個(gè)環(huán)境模型參數(shù)的值來測量使用所述環(huán)境模型生成的動(dòng)作選擇輸出的準(zhǔn)確度。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淵慧科技有限公司，未經(jīng)淵慧科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202080062843.8/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：光學(xué)膜及光學(xué)膜的制造方法
下一篇：用于制造由可生物降解樹脂制成的容器的方法和裝置

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06N 基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】