[發(fā)明專利]動態(tài)優(yōu)勢函數(shù)建模方法、裝置、存儲介質(zhì)及電子設備在審
| 申請?zhí)枺?/td> | 202110564559.7 | 申請日: | 2021-05-24 |
| 公開(公告)號: | CN113392952A | 公開(公告)日: | 2021-09-14 |
| 發(fā)明(設計)人: | 胡紀鋒;陳賀昌;孫智孝;樸海音;詹光;常毅 | 申請(專利權(quán))人: | 吉林大學 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N20/00 |
| 代理公司: | 北京恒博知識產(chǎn)權(quán)代理有限公司 11528 | 代理人: | 張曉芳 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態(tài) 優(yōu)勢 函數(shù) 建模 方法 裝置 存儲 介質(zhì) 電子設備 | ||
本申請實施例公開了一種動態(tài)優(yōu)勢函數(shù)的建模方法,涉及深度強化學習領域。方法包括:針對靜態(tài)優(yōu)勢函數(shù)的演員?評論家模型中包括的靜態(tài)優(yōu)勢函數(shù)添加權(quán)重因子,得到第一動態(tài)優(yōu)勢函數(shù);基于長短期記憶網(wǎng)絡模型對所述演員?評論家模型中包括的原始策略網(wǎng)絡進行動作延遲跟隨和重構(gòu),得到第二動態(tài)優(yōu)勢函數(shù);基于所述第一動態(tài)優(yōu)勢函數(shù)和所述第二動態(tài)優(yōu)勢函數(shù)構(gòu)成所述動態(tài)優(yōu)勢函數(shù)。采用本申請實施例,可以解決現(xiàn)有的基于靜態(tài)優(yōu)勢函數(shù)的演員?評論家模型需要大量樣本數(shù)據(jù)支撐訓練,以及針對智能體的訓練初期效果不理想、模型學習效率低、魯棒性差的問題。
技術領域
本申請涉及深度強化學習領域,尤其涉及一種動態(tài)優(yōu)勢函數(shù)的建模方法、裝置、存儲介質(zhì)及電子設備。
背景技術
隨著科學技術的不斷發(fā)展,人工智能正在多個領域展現(xiàn)出強勁的發(fā)展勢頭,越來越多的智能體開始出現(xiàn)在人們的視野當中,比如虛擬客服、智能音箱、游戲AI等,這些智能體能夠適應環(huán)境并進行決策,而訓練這些智能體可以使用深度強化學習(ReinforcementLearning,RL)的方法達到。深度強化學習可以歸結(jié)為一個五元組表示的馬爾可夫決策過程(Markov Decision Processes,MDP),即(S,A,R,P,γ),分別代表環(huán)境狀態(tài)、動作、獎勵、狀態(tài)轉(zhuǎn)移矩陣、累積獎勵折扣因子。智能體從環(huán)境獲取環(huán)境狀態(tài),并基于當前狀態(tài)產(chǎn)生動作作用于環(huán)境以使環(huán)境產(chǎn)生下一步環(huán)境狀態(tài),同時接受環(huán)境反饋的收益。在與環(huán)境交互的過程中,智能體的目的是獲取的長期受益最大化。
基于靜態(tài)優(yōu)勢函數(shù)的演員-評論家模型是深度強化學習中被普遍采用來訓練智能體的一種模型,優(yōu)勢函數(shù)的含義可以理解為,在狀態(tài)si下,選擇某一優(yōu)勢動作ai,k獲得的收益相對于在狀態(tài)si下所有動作ai,j{j=1,…,k,k+1,..n}產(chǎn)生的平均收益的優(yōu)勢程度。換而言之,優(yōu)勢函數(shù)是得到某一個隨機變量相對這個隨機變量均值的偏差的函數(shù)。
然而基于現(xiàn)有的基于靜態(tài)優(yōu)勢函數(shù)的演員-評論家模型對智能體的訓練,需要大量的樣本數(shù)據(jù)支持,在某些情況下,智能體與環(huán)境交互會產(chǎn)生巨大的交互成本以及時間成本。例如,針對在汽車上實現(xiàn)自動駕駛功能的智能體,想要采集汽車與環(huán)境交互的樣本數(shù)據(jù)無疑是非常耗時耗力以及成本很高的。而少量的樣本數(shù)據(jù),不僅會使訓練后的智能體達不到預想效果,而且智能體的魯棒性也較差。
發(fā)明內(nèi)容
本申請實施例提供了一種動態(tài)優(yōu)勢函數(shù)建模方法、裝置、存儲介質(zhì)及電子設備,可以解決現(xiàn)有的基于靜態(tài)優(yōu)勢函數(shù)的演員-評論家模型需要大量樣本數(shù)據(jù)支撐訓練,以及針對智能體的訓練初期效果不理想、模型學習效率低、魯棒性差的問題,所述技術方案如下:
第一方面,本申請實施例提供了一種動態(tài)優(yōu)勢函數(shù)建模方法,所述方法包括:
針對靜態(tài)優(yōu)勢函數(shù)的演員-評論家模型中包括的靜態(tài)優(yōu)勢函數(shù)添加權(quán)重因子,得到第一動態(tài)優(yōu)勢函數(shù);
基于長短期記憶網(wǎng)絡模型對所述演員-評論家模型中包括的原始策略網(wǎng)絡進行動作延遲跟隨和重構(gòu),得到第二動態(tài)優(yōu)勢函數(shù);
基于所述第一動態(tài)優(yōu)勢函數(shù)和所述第二動態(tài)優(yōu)勢函數(shù)構(gòu)成所述動態(tài)優(yōu)勢函數(shù)。
第二方面,本申請實施例提供了一種動態(tài)優(yōu)勢函數(shù)的優(yōu)化裝置,所述裝置包括:
第一動態(tài)優(yōu)勢函數(shù)模塊,用于針對靜態(tài)優(yōu)勢函數(shù)的演員-評論家模型中包括的靜態(tài)優(yōu)勢函數(shù)添加權(quán)重因子,得到第一動態(tài)優(yōu)勢函數(shù);
第二動態(tài)優(yōu)勢函數(shù)模塊,用于基于長短期記憶網(wǎng)絡模型對所述演員-評論家模型中包括的原始策略網(wǎng)絡進行動作延遲跟隨和重構(gòu),得到第二動態(tài)優(yōu)勢函數(shù);
動態(tài)優(yōu)勢函數(shù)模塊,基于所述第一動態(tài)優(yōu)勢函數(shù)和所述第二動態(tài)優(yōu)勢函數(shù)構(gòu)成所述動態(tài)優(yōu)勢函數(shù)。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學,未經(jīng)吉林大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110564559.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





