[發(fā)明專利]使用強(qiáng)化學(xué)習(xí)選擇動(dòng)作名單有效
| 申請(qǐng)?zhí)枺?/td> | 201680070828.1 | 申請(qǐng)日: | 2016-12-01 |
| 公開(公告)號(hào): | CN108604314B | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計(jì))人: | 彼得·戈蘭·蘇內(nèi)哈格 | 申請(qǐng)(專利權(quán))人: | 淵慧科技有限公司 |
| 主分類號(hào): | G06F16/26 | 分類號(hào): | G06F16/26;G06N3/08;G06Q30/06 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 周亞榮;安翔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 強(qiáng)化 學(xué)習(xí) 選擇 動(dòng)作 名單 | ||
1.一種向動(dòng)作選擇器提供動(dòng)作名單的方法,所述動(dòng)作選擇器通過選擇并執(zhí)行動(dòng)作與環(huán)境交互,其中所述動(dòng)作名單包括從預(yù)定的動(dòng)作集合中選擇的多個(gè)動(dòng)作以填充動(dòng)作名單中的預(yù)定數(shù)量的槽位,并且其中所述環(huán)境響應(yīng)于由所述動(dòng)作選擇器執(zhí)行的動(dòng)作而轉(zhuǎn)換狀態(tài),其中:
所述環(huán)境是由內(nèi)容項(xiàng)目推薦系統(tǒng)提供的內(nèi)容項(xiàng)目呈現(xiàn)設(shè)置,所述動(dòng)作選擇器是內(nèi)容項(xiàng)目推薦系統(tǒng)的用戶,并且所述動(dòng)作名單中的每個(gè)動(dòng)作是對(duì)內(nèi)容項(xiàng)目推薦系統(tǒng)的用戶的不同內(nèi)容項(xiàng)目的推薦,或
所述環(huán)境是用于軟件產(chǎn)品或內(nèi)容項(xiàng)目的呈現(xiàn)設(shè)置,所述動(dòng)作選擇器是測量所述動(dòng)作名單中的每個(gè)動(dòng)作的有效性并且然后選擇并執(zhí)行最有效的動(dòng)作的軟件程序模塊,并且所述動(dòng)作名單中的每個(gè)動(dòng)作是用于軟件產(chǎn)品或內(nèi)容項(xiàng)目的可能配置,或
所述環(huán)境是車輛導(dǎo)航的真實(shí)世界環(huán)境,所述動(dòng)作選擇器是所述車輛的操作器或控制系統(tǒng),并且所述動(dòng)作名單中的每個(gè)動(dòng)作是針對(duì)所述車輛的可能的控制輸入,或
所述環(huán)境是網(wǎng)絡(luò)化的真實(shí)世界系統(tǒng),所述動(dòng)作選擇器是根據(jù)不同的標(biāo)準(zhǔn)選擇動(dòng)作的控制系統(tǒng)或管理所述網(wǎng)絡(luò)化的真實(shí)世界系統(tǒng)的設(shè)置的用戶,并且所述動(dòng)作名單中的每個(gè)動(dòng)作是影響所述網(wǎng)絡(luò)化的真實(shí)世界系統(tǒng)的能量效率或性能的用于所述網(wǎng)絡(luò)化的真實(shí)世界系統(tǒng)的可能設(shè)置;
所述方法包括:
接收表征所述環(huán)境的當(dāng)前狀態(tài)的觀測;
將所述預(yù)定數(shù)量的槽位劃分為多個(gè)子集,其中每個(gè)子集是所述預(yù)定數(shù)量的槽位中的所述槽位的不相交分區(qū);
對(duì)于所述多個(gè)子集中的給定子集,根據(jù)所述多個(gè)子集的子集排序按順序選擇動(dòng)作以填充在每個(gè)子集中包括:
為槽位的所述給定子集生成多個(gè)候選動(dòng)作名單,針對(duì)槽位的所述給定子集的每個(gè)候選動(dòng)作名單包括:
在所述子集排序中的所述給定子集之前的任一子集中的任一槽位中,已經(jīng)為該槽位選擇的動(dòng)作,
在所述給定子集中的每個(gè)槽位中的相應(yīng)候選動(dòng)作,其中每個(gè)候選動(dòng)作名單在所述給定子集中的槽位中具有與每個(gè)其他候選名單不同的候選動(dòng)作組合,以及
在除了所述給定子集中的槽位和在所述子集排序中的所述給定子集之前的任一子集中的槽位之外的所述動(dòng)作名單中的任一槽位中的相應(yīng)占位動(dòng)作;
為每個(gè)候選動(dòng)作名單,使用深度神經(jīng)網(wǎng)絡(luò)處理該候選動(dòng)作名單,其中所述深度神經(jīng)網(wǎng)絡(luò)接收所述觀測和該候選動(dòng)作名單作為輸入,并且生成該候選動(dòng)作名單的名單Q值作為輸出,所述名單Q值是響應(yīng)于所述觀測從提供給所述動(dòng)作選擇器的所述候選動(dòng)作名單產(chǎn)生的長期獎(jiǎng)勵(lì)的估計(jì);
基于所生成的所述候選動(dòng)作名單的名單Q值,從所述多個(gè)候選動(dòng)作名單中選擇候選動(dòng)作名單;以及
選擇所選擇的候選動(dòng)作名單中的槽位中的所述動(dòng)作,作為所述給定子集中的槽位中的所述動(dòng)作;
生成最終動(dòng)作名單,其中所述最終動(dòng)作名單包括每個(gè)子集中的槽位的所選擇的動(dòng)作;以及
響應(yīng)于所述觀測而將所述最終動(dòng)作名單提供給所述動(dòng)作選擇器。
2.根據(jù)權(quán)利要求1所述的方法,其中響應(yīng)于接收所述最終動(dòng)作名單,所述動(dòng)作選擇器執(zhí)行(i)從所述最終動(dòng)作名單選擇的動(dòng)作或者(ii)未包括在所述最終動(dòng)作名單中的所述動(dòng)作集合中的空動(dòng)作。
3.根據(jù)權(quán)利要求1所述的方法,其中槽位的所述給定子集具有大于一的預(yù)定數(shù)量的槽位;或
其中槽位的所述給定子集具有一個(gè)槽位。
4.根據(jù)權(quán)利要求1所述的方法,其中當(dāng)被提供給所述動(dòng)作選擇器時(shí),所述動(dòng)作名單中的槽位被從所述動(dòng)作名單中的最高槽位到所述動(dòng)作名單中的最低槽位排序。
5.根據(jù)權(quán)利要求1所述的方法,還包括:
生成所述動(dòng)作名單中的槽位子集的隨機(jī)排序,其中根據(jù)所述多個(gè)子集的所述子集排序按順序選擇動(dòng)作以填充在每個(gè)子集中包括根據(jù)隨機(jī)排序,按順序?yàn)樗鰟?dòng)作名單中的每個(gè)槽位子集選擇動(dòng)作。
6.根據(jù)權(quán)利要求1所述的方法,其中對(duì)于每個(gè)候選動(dòng)作名單,所述占位動(dòng)作與所述給定子集中的一個(gè)候選動(dòng)作相同;和/或
其中,對(duì)于每個(gè)候選動(dòng)作名單,所述占位動(dòng)作是由另一動(dòng)作推薦系統(tǒng)建議的動(dòng)作。
7.根據(jù)權(quán)利要求1所述的方法,其中每個(gè)候選動(dòng)作名單中的所述動(dòng)作是從由另一過程生成的所述預(yù)定動(dòng)作集合中的動(dòng)作的子集中選擇的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淵慧科技有限公司,未經(jīng)淵慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680070828.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





