[發(fā)明專利]使用超模型的探索在審
| 申請?zhí)枺?/td> | 202080062843.8 | 申請日: | 2020-09-25 |
| 公開(公告)號(hào): | CN114341895A | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設(shè)計(jì))人: | B.范羅伊;陸修遠(yuǎn);V.R.德瓦拉切爾拉;Z.溫;M.伊布拉希米;I.D.M.奧斯本 | 申請(專利權(quán))人: | 淵慧科技有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 模型 探索 | ||
1.一種用于選擇要由與環(huán)境交互的代理執(zhí)行的動(dòng)作的方法,所述方法包括,在多個(gè)時(shí)間步驟中的每個(gè)時(shí)間步驟處:
根據(jù)可能索引變量的連續(xù)空間上的概率分布,從所述可能索引變量的連續(xù)空間采樣一個(gè)或多個(gè)索引變量;
對于所述一個(gè)或多個(gè)索引變量中的每個(gè)索引變量:
根據(jù)超模型的多個(gè)參數(shù)值使用所述超模型處理所述索引變量,以生成指定環(huán)境模型的多個(gè)參數(shù)值的超模型輸出;并且
根據(jù)由所述超模型輸出為所述索引變量指定的所述環(huán)境模型的多個(gè)參數(shù)值,使用所述環(huán)境模型生成動(dòng)作選擇輸出;以及
使用針對所述一個(gè)或多個(gè)索引變量的一個(gè)或多個(gè)動(dòng)作選擇輸出來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作。
2.根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)由所述超模型輸出為所述索引變量指定的所述環(huán)境模型的多個(gè)參數(shù)值,使用所述環(huán)境模型生成動(dòng)作選擇輸出包括,對于能夠由所述代理執(zhí)行的可能動(dòng)作集合中的每個(gè)動(dòng)作:
使用所述環(huán)境模型處理包括指定所述動(dòng)作的數(shù)據(jù)的輸入,以生成對所述代理將會(huì)接收到的獎(jiǎng)勵(lì)的估計(jì),作為執(zhí)行所述動(dòng)作的結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述輸入還包括表征在所述時(shí)間步驟處的所述環(huán)境的當(dāng)前狀態(tài)的觀測。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其中,使用針對所述一個(gè)或多個(gè)索引變量的一個(gè)或多個(gè)動(dòng)作選擇輸出來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作包括使用湯普森采樣技術(shù)來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作。
5.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其中,使用針對所述一個(gè)或多個(gè)索引變量的一個(gè)或多個(gè)動(dòng)作選擇輸出來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作包括使用信息引導(dǎo)采樣(IDS)技術(shù)來選擇要由所述代理在所述時(shí)間步驟處執(zhí)行的動(dòng)作。
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其中,所述可能索引變量的連續(xù)空間上的概率分布包括連續(xù)概率分布。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述可能索引變量的空間包括n維歐幾里得空間,并且所述可能索引變量的空間上的概率分布是單位正態(tài)分布。
8.根據(jù)權(quán)利要求6所述的方法,其中,所述可能索引變量的空間包括超球面,并且所述可能索引變量的空間上的概率分布是均勻分布。
9.根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的方法,其中,所述超模型包括線性模型。
10.根據(jù)權(quán)利要求9所述的方法,其中,使用所述超模型處理所述索引變量以生成指定所述環(huán)境模型的多個(gè)參數(shù)值的輸出包括:
計(jì)算(i)由所述超模型的參數(shù)指定的矩陣與(ii)所述索引變量之間的乘積;以及
計(jì)算(i)所述乘積的結(jié)果與(ii)由所述超模型的參數(shù)指定的偏差向量的和。
11.根據(jù)權(quán)利要求1-8中任一項(xiàng)所述的方法,其中,所述超模型包括神經(jīng)網(wǎng)絡(luò)模型,并且其中,對于所述神經(jīng)網(wǎng)絡(luò)模型的一層或多層,計(jì)算所述層的輸出包括將非線性激活函數(shù)應(yīng)用于所述層的中間輸出。
12.根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法,其中,所述環(huán)境模型包括線性模型。
13.根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法,其中,所述環(huán)境模型包括神經(jīng)網(wǎng)絡(luò)模型。
14.根據(jù)權(quán)利要求1-13中任一項(xiàng)所述的方法,其中,所述環(huán)境模型包括先驗(yàn)環(huán)境模型和差分環(huán)境模型。
15.根據(jù)權(quán)利要求1-14中任一項(xiàng)所述的方法,還包括訓(xùn)練所述多個(gè)超模型參數(shù)以優(yōu)化目標(biāo)函數(shù),其中,所述目標(biāo)函數(shù)根據(jù)由超模型輸出指定的多個(gè)環(huán)境模型參數(shù)的值來測量使用所述環(huán)境模型生成的動(dòng)作選擇輸出的準(zhǔn)確度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淵慧科技有限公司,未經(jīng)淵慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080062843.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





