日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法在審

專利信息
申請?zhí)枺?/td> 202010428975.X 申請日: 2020-05-20
公開(公告)號: CN111931943A 公開(公告)日: 2020-11-13
發(fā)明(設(shè)計(jì))人: 李璽;皇福獻(xiàn);崔家寶;李偉超 申請(專利權(quán))人: 浙江大學(xué)
主分類號: G06N20/00 分類號: G06N20/00;G06K9/62
代理公司: 杭州求是專利事務(wù)所有限公司 33200 代理人: 傅朝棟;張法高
地址: 310058 浙江*** 國省代碼: 浙江;33
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 統(tǒng)一 基于 好奇心 驅(qū)動(dòng) 強(qiáng)化 學(xué)習(xí)方法
【說明書】:

發(fā)明公開了一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,用于智能體在獎(jiǎng)勵(lì)稀疏的情況下能夠快速有效地學(xué)習(xí)策略。具體包括如下步驟:1)通過注意力模塊獲得狀態(tài)可靠的特征表達(dá);2)使用狀態(tài)新穎性估計(jì)和前向動(dòng)態(tài)預(yù)測來估計(jì)狀態(tài)以及狀態(tài)動(dòng)作對的探索程度,即初步估計(jì)的內(nèi)部獎(jiǎng)勵(lì);3)使用狀態(tài)空間中的多個(gè)樣本對估計(jì)出的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行平滑處理;4)將不同類型的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行融合,得到更加準(zhǔn)確、魯棒的內(nèi)部獎(jiǎng)勵(lì);5)智能體使用和環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)以及估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行策略的學(xué)習(xí)。本發(fā)明適用于強(qiáng)化學(xué)習(xí)領(lǐng)域的稀疏獎(jiǎng)勵(lì)問題,能夠在外部獎(jiǎng)勵(lì)比較稀疏或者不存在的情況下快速有效地學(xué)習(xí)策略。

技術(shù)領(lǐng)域

本發(fā)明屬于強(qiáng)化學(xué)習(xí)領(lǐng)域,是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)分支,特別地涉及一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法。

背景技術(shù)

獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)過程中很重要的一個(gè)因素,智能體是通過最大化累計(jì)獎(jiǎng)勵(lì)來學(xué)習(xí)策略的。但是在很多場景中,獎(jiǎng)勵(lì)往往是稀疏的,例如在圍棋比賽中,只有最終才能收到贏或輸?shù)慕Y(jié)果,中間的很多個(gè)動(dòng)作無法獲得及時(shí)的獎(jiǎng)勵(lì),這給強(qiáng)化學(xué)習(xí)帶來很大的挑戰(zhàn)。傳統(tǒng)方法一般是結(jié)合具體的任務(wù),手工設(shè)計(jì)相應(yīng)的獎(jiǎng)勵(lì)函數(shù),但是這種方法對專業(yè)領(lǐng)域的知識要求很高,而且需要繁瑣的調(diào)試,且很難在不同的任務(wù)之間進(jìn)行遷移。

現(xiàn)有的基于好奇心驅(qū)動(dòng)的方法主要根據(jù)單一的度量方式,比如下一時(shí)刻狀態(tài)的新穎程度或者當(dāng)前狀態(tài)動(dòng)作對的新穎程度,來估計(jì)當(dāng)前樣本的內(nèi)部獎(jiǎng)勵(lì)。而這種方式并沒有從根本上解決三個(gè)問題:1.不同的好奇心驅(qū)動(dòng)的方法關(guān)注的對象不同,使得估計(jì)出來的內(nèi)部獎(jiǎng)勵(lì)無法充分有效地引導(dǎo)智能體進(jìn)行探索和學(xué)習(xí);2.由于狀態(tài)空間很大,且存在很多與學(xué)習(xí)任務(wù)無關(guān)背景信息,這些信息會(huì)影響智能體對環(huán)境的感知能力,從而影響其學(xué)習(xí)策略;3.由于價(jià)值函數(shù)在狀態(tài)空間是連續(xù)的,僅僅使用一個(gè)樣本對相應(yīng)對狀態(tài)進(jìn)行探索程度的估計(jì)可能會(huì)使得估計(jì)的結(jié)果不準(zhǔn)確,從而影響學(xué)習(xí)的效率。

發(fā)明內(nèi)容

為解決上述問題,本發(fā)明的目的在于提供一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法。該方法基于注意力模塊對智能體所處環(huán)境有效的特征表達(dá),利用加權(quán)平均的方法對使用狀態(tài)新穎性估計(jì)和前向動(dòng)態(tài)預(yù)測來估計(jì)對狀態(tài)以及狀態(tài)動(dòng)作對的探索程度估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行平滑,接著對上述兩種方案估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行融合,最后結(jié)合估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí)策略,從而提高智能體的學(xué)習(xí)速率和質(zhì)量。

為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:

一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,其包括以下步驟:

S1、學(xué)習(xí)注意力模塊,并通過包含注意力模塊的特征提取網(wǎng)絡(luò)獲取狀態(tài)的特征表達(dá);

S2、使用狀態(tài)新穎性估計(jì)分別對下一個(gè)狀態(tài)和當(dāng)前狀態(tài)的探索程度進(jìn)行估計(jì),再使用前向動(dòng)態(tài)預(yù)測估計(jì)狀態(tài)動(dòng)作對的探索程度,估計(jì)得到的三種探索程度即為初步估計(jì)的內(nèi)部獎(jiǎng)勵(lì);

S3、使用狀態(tài)空間中的多個(gè)樣本對估計(jì)出的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行平滑處理;

S4、將平滑處理后的不同類型的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行融合,得到更加準(zhǔn)確和魯棒的內(nèi)部獎(jiǎng)勵(lì);

S5、智能體使用和環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)以及融合后的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行策略的學(xué)習(xí)。

基于上述技術(shù)方案,本發(fā)明的各步驟還可以進(jìn)一步采用以下優(yōu)選實(shí)現(xiàn)方式。

作為優(yōu)選,步驟S1中所述的注意力模塊為特征提取網(wǎng)絡(luò)的一部分,通過該模塊可以弱化無關(guān)的特征,從而獲得關(guān)于狀態(tài)更準(zhǔn)確的特征表達(dá);狀態(tài)st經(jīng)過注意力模塊之后,獲得的特征表達(dá)記為

作為優(yōu)選,步驟S2中所述的狀態(tài)新穎性估計(jì)對下一步的狀態(tài)st+1的探索程度進(jìn)行估計(jì),具體計(jì)算如下:

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010428975.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩精品久久久久久中文字幕8| 久久精品一| 久久99视频免费| 国产精品免费一视频区二区三区| 高清国产一区二区| 久久国产精品99国产精| 久久99精品国产一区二区三区| 国产一区日韩欧美| 欧美日韩国产一二三| 性欧美一区二区| 日韩av在线影视| 日韩精品一二区| 国内揄拍国产精品| xoxoxo亚洲国产精品| 97人人澡人人添人人爽超碰| 综合久久一区| 91久久久久久亚洲精品禁果| 国产天堂一区二区三区| 国产一区二区电影| 狠狠躁日日躁狂躁夜夜躁av| 国产精品亚洲第一区| 国精偷拍一区二区三区| 亚洲欧洲国产伦综合| 国产二区不卡| 性精品18videosex欧美| 久久99中文字幕| 黄色91在线观看| 日韩精品999| 日韩区欧美久久久无人区| 九九精品久久| 亚洲精品乱码久久久久久高潮| 午夜三级电影院| 欧美乱妇高清无乱码一级特黄| 久久综合二区| 国产一区二区三区小说| 国产一区二区三区四| 色综合久久久久久久粉嫩| 一区二区三区中文字幕| 中文字幕欧美一区二区三区| 中文天堂在线一区| 久久99精品一区二区三区| 国产福利一区在线观看| 欧美日韩三区二区| 亚洲综合日韩精品欧美综合区| 狠狠插狠狠插| 毛片大全免费看| 久久精品麻豆| 亚洲国产精品第一区二区| 99久久精品免费视频| 国产精品女同一区二区免费站| 国产精品精品国内自产拍下载| 欧美一区二区伦理片| 中文字幕日韩一区二区| 国产一级片子| 99精品一级欧美片免费播放| 精品一区欧美| 国产一区日韩一区| 丰满少妇高潮惨叫久久久| 欧美一区二区伦理片| 国产精品一区二| 欧美日韩一区二区三区不卡视频| 日韩av中文字幕第一页| 国产香蕉97碰碰久久人人| 一区二区三区精品国产| 国产精品黑色丝袜的老师| 色一情一乱一乱一区免费网站 | 国产精品999久久久| 一区二区在线视频免费观看| 日韩精品久久久久久久酒店| 亚洲综合日韩精品欧美综合区| 又色又爽又大免费区欧美| 日韩av不卡一区| 亚洲国产欧美一区二区丝袜黑人| 精品国产1区2区| 午夜看片网址| 丰满岳乱妇bd在线观看k8| 国产精品伦一区二区三区在线观看 | xoxoxo亚洲国产精品| 97人人澡人人添人人爽超碰| 久久九精品| 免费看欧美中韩毛片影院| 狠狠躁夜夜av| 精品国产九九九| 国产一二区在线| 狠狠色丁香久久婷婷综合丁香| 日本一二三四区视频| 国产大学生呻吟对白精彩在线| 亚洲欧美一卡| 高清欧美精品xxxxx| 国产精品欧美久久| 久久一级精品视频| 高清国产一区二区| 神马久久av| 欧美日韩国产精品一区二区三区| 欧美日韩国产专区| 亚洲乱玛2021| 国产视频精品一区二区三区| 欧美精品一区二区三区久久久竹菊| 欧美精品一区久久| 国产一区二区三区网站| 国产视频精品一区二区三区| 欧美日韩三区| 高清欧美精品xxxxx| 久久国产欧美一区二区三区精品| 欧美日韩一二三四区| 激情久久久| 国产伦精品一区二区三区免费下载 | 日本大码bbw肉感高潮| 午夜色影院| 国产精品自拍在线| 欧美高清视频一区二区三区| 亚洲欧洲日本在线观看| 日韩一区高清| 欧美日韩一区视频| 久久国产精品欧美| 国产精品久久久久久久久久软件| 一区二区三区国产精品| 久久久久久国产精品免费| 国产69精品久久99不卡免费版| 国产精品视频二区不卡| 91av中文字幕| 国产精品九九九九九| 国产乱子伦农村xxxx| 曰韩av在线| 国产一区二区影院| 99久久精品国产系列| 国产精品麻豆一区二区三区| 日韩av在线中文| 91丝袜诱惑| 久久久久久国产一区二区三区| 日韩国产不卡| 国产精品国产三级国产专区55 | 色一情一乱一乱一区99av白浆| 少妇性色午夜淫片aaa播放5| 国产大片一区二区三区| 999久久国精品免费观看网站| 欧美亚洲精品一区二区三区| 精品一区二区三区影院| 国产色一区二区| 欧美一区二区色| 97人人模人人爽人人喊0| 狠狠色噜噜狠狠狠狠2021免费| 日韩av中文字幕第一页| 狠狠色狠狠色综合系列| 日韩欧美亚洲视频| 日本道欧美一区二区aaaa| 久久久久亚洲精品| 国产区精品区| 日韩亚洲精品视频| 国语对白一区二区三区| 亚洲欧美v国产一区二区| 亚日韩精品| 中日韩欧美一级毛片| 日韩电影在线一区二区三区| 欧美一区二区三区久久久久久桃花| 国产一区二区在线免费| 91午夜精品一区二区三区| 正在播放国产一区二区| 日本一区二区三区免费在线| 国产精品9区| 国产精品视频1区| 99爱精品在线| 亚洲欧美一卡| 肥大bbwbbwbbw高潮| 日韩精品中文字幕一区| 韩国女主播一区二区| 国产白嫩美女在线观看| 国产区图片区一区二区三区| 国产精品久久免费视频在线| 韩国视频一区二区| 午夜精品影视| 国产.高清,露脸,对白| 亚洲二区在线播放视频| 精品99在线视频| 国产欧美视频一区二区| 狠狠躁夜夜av| 久久国产这里只有精品| 国产精品不卡在线| 国产在线一区不卡| 夜色av网| 国产亚洲精品久久yy50| 久久精品—区二区三区| 国产精品日韩高清伦字幕搜索| 国产视频二区在线观看| 国产97在线播放| 最新国产一区二区| 日韩午夜电影在线| 欧美一级免费在线视频| 国产欧美一区二区精品久久久| 国产精品刺激对白麻豆99| 国产精品视频一区二区在线观看| 欧美日韩综合一区二区| 亚洲欧洲日韩av| 99精品一级欧美片免费播放| 国产国产精品久久久久| 亚洲午夜精品一区二区三区| 一本色道久久综合亚洲精品浪潮| 日韩亚洲国产精品| 欧美日韩九区| 四虎影视亚洲精品国产原创优播| 国产欧美日韩综合精品一| 色婷婷久久一区二区三区麻豆| 国产午夜亚洲精品午夜鲁丝片 | 国产色婷婷精品综合在线播放| 亚洲精品老司机| 欧美髙清性xxxxhdvid| 少妇高潮在线观看| **毛片在线| 久久一级精品| 国产91免费在线| 国产日本一区二区三区| **毛片免费| 国内偷拍一区| 国产一级片网站| 最新日韩一区| 日本一区二区在线电影| 亚洲第一天堂无码专区| 久久国产精品视频一区| 久久久久国产亚洲| 991本久久精品久久久久| 国产性猛交| 久久精视频| 中文字幕一区三区| 亚洲欧美国产一区二区三区 | 欧美精品一区二区三区四区在线| 亚洲精品色婷婷| 欧美精品日韩| 午夜wwwww| av午夜剧场| 欧美系列一区二区| 91区国产| 国产精品高清一区| 欧美日本一二三区| 亚洲国产欧美一区| 偷拍精品一区二区三区| 亚洲精品国产综合| 销魂美女一区二区| 好吊色欧美一区二区三区视频 | 国产极品一区二区三区| 久久精品国产亚洲7777| 香蕉av一区| 国产欧美亚洲一区二区| 久久人人爽爽| 久久国产精彩视频| 好吊色欧美一区二区三区视频 | 国产极品一区二区三区|