[發(fā)明專利]一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202010428975.X | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN111931943A | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設(shè)計(jì))人: | 李璽;皇福獻(xiàn);崔家寶;李偉超 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 統(tǒng)一 基于 好奇心 驅(qū)動(dòng) 強(qiáng)化 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,用于智能體在獎(jiǎng)勵(lì)稀疏的情況下能夠快速有效地學(xué)習(xí)策略。具體包括如下步驟:1)通過注意力模塊獲得狀態(tài)可靠的特征表達(dá);2)使用狀態(tài)新穎性估計(jì)和前向動(dòng)態(tài)預(yù)測來估計(jì)狀態(tài)以及狀態(tài)動(dòng)作對的探索程度,即初步估計(jì)的內(nèi)部獎(jiǎng)勵(lì);3)使用狀態(tài)空間中的多個(gè)樣本對估計(jì)出的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行平滑處理;4)將不同類型的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行融合,得到更加準(zhǔn)確、魯棒的內(nèi)部獎(jiǎng)勵(lì);5)智能體使用和環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)以及估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行策略的學(xué)習(xí)。本發(fā)明適用于強(qiáng)化學(xué)習(xí)領(lǐng)域的稀疏獎(jiǎng)勵(lì)問題,能夠在外部獎(jiǎng)勵(lì)比較稀疏或者不存在的情況下快速有效地學(xué)習(xí)策略。
技術(shù)領(lǐng)域
本發(fā)明屬于強(qiáng)化學(xué)習(xí)領(lǐng)域,是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)分支,特別地涉及一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法。
背景技術(shù)
獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)過程中很重要的一個(gè)因素,智能體是通過最大化累計(jì)獎(jiǎng)勵(lì)來學(xué)習(xí)策略的。但是在很多場景中,獎(jiǎng)勵(lì)往往是稀疏的,例如在圍棋比賽中,只有最終才能收到贏或輸?shù)慕Y(jié)果,中間的很多個(gè)動(dòng)作無法獲得及時(shí)的獎(jiǎng)勵(lì),這給強(qiáng)化學(xué)習(xí)帶來很大的挑戰(zhàn)。傳統(tǒng)方法一般是結(jié)合具體的任務(wù),手工設(shè)計(jì)相應(yīng)的獎(jiǎng)勵(lì)函數(shù),但是這種方法對專業(yè)領(lǐng)域的知識要求很高,而且需要繁瑣的調(diào)試,且很難在不同的任務(wù)之間進(jìn)行遷移。
現(xiàn)有的基于好奇心驅(qū)動(dòng)的方法主要根據(jù)單一的度量方式,比如下一時(shí)刻狀態(tài)的新穎程度或者當(dāng)前狀態(tài)動(dòng)作對的新穎程度,來估計(jì)當(dāng)前樣本的內(nèi)部獎(jiǎng)勵(lì)。而這種方式并沒有從根本上解決三個(gè)問題:1.不同的好奇心驅(qū)動(dòng)的方法關(guān)注的對象不同,使得估計(jì)出來的內(nèi)部獎(jiǎng)勵(lì)無法充分有效地引導(dǎo)智能體進(jìn)行探索和學(xué)習(xí);2.由于狀態(tài)空間很大,且存在很多與學(xué)習(xí)任務(wù)無關(guān)背景信息,這些信息會(huì)影響智能體對環(huán)境的感知能力,從而影響其學(xué)習(xí)策略;3.由于價(jià)值函數(shù)在狀態(tài)空間是連續(xù)的,僅僅使用一個(gè)樣本對相應(yīng)對狀態(tài)進(jìn)行探索程度的估計(jì)可能會(huì)使得估計(jì)的結(jié)果不準(zhǔn)確,從而影響學(xué)習(xí)的效率。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明的目的在于提供一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法。該方法基于注意力模塊對智能體所處環(huán)境有效的特征表達(dá),利用加權(quán)平均的方法對使用狀態(tài)新穎性估計(jì)和前向動(dòng)態(tài)預(yù)測來估計(jì)對狀態(tài)以及狀態(tài)動(dòng)作對的探索程度估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行平滑,接著對上述兩種方案估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行融合,最后結(jié)合估計(jì)的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí)策略,從而提高智能體的學(xué)習(xí)速率和質(zhì)量。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
一種統(tǒng)一的基于好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,其包括以下步驟:
S1、學(xué)習(xí)注意力模塊,并通過包含注意力模塊的特征提取網(wǎng)絡(luò)獲取狀態(tài)的特征表達(dá);
S2、使用狀態(tài)新穎性估計(jì)分別對下一個(gè)狀態(tài)和當(dāng)前狀態(tài)的探索程度進(jìn)行估計(jì),再使用前向動(dòng)態(tài)預(yù)測估計(jì)狀態(tài)動(dòng)作對的探索程度,估計(jì)得到的三種探索程度即為初步估計(jì)的內(nèi)部獎(jiǎng)勵(lì);
S3、使用狀態(tài)空間中的多個(gè)樣本對估計(jì)出的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行平滑處理;
S4、將平滑處理后的不同類型的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行融合,得到更加準(zhǔn)確和魯棒的內(nèi)部獎(jiǎng)勵(lì);
S5、智能體使用和環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù)以及融合后的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行策略的學(xué)習(xí)。
基于上述技術(shù)方案,本發(fā)明的各步驟還可以進(jìn)一步采用以下優(yōu)選實(shí)現(xiàn)方式。
作為優(yōu)選,步驟S1中所述的注意力模塊為特征提取網(wǎng)絡(luò)的一部分,通過該模塊可以弱化無關(guān)的特征,從而獲得關(guān)于狀態(tài)更準(zhǔn)確的特征表達(dá);狀態(tài)st經(jīng)過注意力模塊之后,獲得的特征表達(dá)記為
作為優(yōu)選,步驟S2中所述的狀態(tài)新穎性估計(jì)對下一步的狀態(tài)st+1的探索程度進(jìn)行估計(jì),具體計(jì)算如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010428975.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 電流驅(qū)動(dòng)裝置的驅(qū)動(dòng)電路,電流驅(qū)動(dòng)設(shè)備及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊以及電機(jī)驅(qū)動(dòng)裝置
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊和電機(jī)驅(qū)動(dòng)設(shè)備
- 驅(qū)動(dòng)單元、驅(qū)動(dòng)方法、驅(qū)動(dòng)電路及顯示面板
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)芯片及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電機(jī)(電驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(節(jié)能驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(設(shè)備驅(qū)動(dòng))
- 驅(qū)動(dòng)機(jī)(驅(qū)動(dòng)軸)
- 驅(qū)動(dòng)機(jī)(電驅(qū)動(dòng))





