[發(fā)明專利]一種強(qiáng)化學(xué)習(xí)的目標(biāo)規(guī)劃方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011192071.8 | 申請(qǐng)日: | 2020-10-30 |
| 公開(公告)號(hào): | CN112257872B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設(shè)計(jì))人: | 周世海 | 申請(qǐng)(專利權(quán))人: | 周世海 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 315722 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 強(qiáng)化 學(xué)習(xí) 目標(biāo) 規(guī)劃 方法 | ||
本發(fā)明通過將強(qiáng)化學(xué)習(xí)中的動(dòng)作,通過詞向量嵌入的方式,轉(zhuǎn)化為具有內(nèi)在聯(lián)系的向量表示,以此作為預(yù)測(cè)器,并結(jié)合給定目標(biāo)的環(huán)境特征,計(jì)算其到達(dá)目標(biāo)狀態(tài)的規(guī)劃路徑,從而將稀疏環(huán)境獎(jiǎng)勵(lì)轉(zhuǎn)化為密集獎(jiǎng)勵(lì)的形式。同時(shí),通過采用規(guī)劃器和執(zhí)行器對(duì)抗訓(xùn)練的方式,一定程度上解決了局部最優(yōu)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其是涉及一種強(qiáng)化學(xué)習(xí)的目標(biāo)規(guī)劃方法。
背景技術(shù)
在強(qiáng)化學(xué)習(xí)中,涉及一個(gè)局部最優(yōu)問題,即當(dāng)狀態(tài)空間過大時(shí),智能體容易停留在當(dāng)前探索到的策略中價(jià)值最高的一種策略,但該策略并不是最優(yōu)策略,使得智能體無法很好的完成指定任務(wù)。
另外,在強(qiáng)化學(xué)習(xí)中還存在稀疏獎(jiǎng)勵(lì)問題,即在智能體執(zhí)行任務(wù)探索環(huán)境時(shí),給定的獎(jiǎng)勵(lì)很稀少,如只在達(dá)到最終目標(biāo)時(shí)才給定獎(jiǎng)勵(lì),在未達(dá)到目標(biāo)時(shí)沒有任何獎(jiǎng)勵(lì)。這容易導(dǎo)致智能體在初始訓(xùn)練時(shí)難以掌握給定的任務(wù)目標(biāo),同時(shí)也進(jìn)一步加大了局部最優(yōu)問題帶來的干擾。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種能一定程度上克服局部最優(yōu)問題、能夠?qū)⑾∈瑾?jiǎng)勵(lì)轉(zhuǎn)在智能體內(nèi)部轉(zhuǎn)換為密集獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)的目標(biāo)規(guī)劃方法。
本發(fā)明所采用的技術(shù)方案是,一種強(qiáng)化學(xué)習(xí)的目標(biāo)規(guī)劃方法,包括:
S1、收集若干個(gè)已收斂的具有相同動(dòng)作空間的智能體,根據(jù)其動(dòng)作序列,計(jì)算其執(zhí)行任務(wù)時(shí),得到的動(dòng)作序列中每個(gè)動(dòng)作的向量表示,整合為一個(gè)動(dòng)作-向量對(duì)應(yīng)的動(dòng)作向量字典,然后在目標(biāo)訓(xùn)練環(huán)境中放入要訓(xùn)練的具有相同動(dòng)作空間的執(zhí)行器;
S2、通過特征提取器,提取與動(dòng)作相關(guān)的環(huán)境特征向量,作為執(zhí)行器的外部輸入;
S3、將當(dāng)前周期,S2中提取的環(huán)境特征向量以及執(zhí)行器輸出執(zhí)行的動(dòng)作的向量表示合并為一個(gè)向量,作為下一周期環(huán)境特征預(yù)測(cè)器的輸入,通過環(huán)境特征預(yù)測(cè)器計(jì)算得到下一周期的環(huán)境特征向量;
S4、給定一個(gè)任務(wù)最終狀態(tài)目標(biāo)環(huán)境,通過特征提取器得到目標(biāo)環(huán)境特征向量;
S5、根據(jù)當(dāng)前環(huán)境特征向量以及目標(biāo)環(huán)境特征向量之間的距離,以縮短距離以及減少迭代次數(shù)為目標(biāo),迭代計(jì)算得到一組迭代得到的環(huán)境特征向量與動(dòng)作一一對(duì)應(yīng)的規(guī)劃序列;
S6、將規(guī)劃序列作為訓(xùn)練集,對(duì)執(zhí)行器進(jìn)行規(guī)劃訓(xùn)練。
本發(fā)明的有益效果是:
(1)將動(dòng)作序列中的每一個(gè)動(dòng)作表示為向量的形式,這將為每個(gè)動(dòng)作都賦予其基礎(chǔ)內(nèi)涵,并且動(dòng)作與動(dòng)作之間也賦予了相似關(guān)系,每一個(gè)動(dòng)作不再是獨(dú)立存在,智能體在進(jìn)行目標(biāo)規(guī)劃時(shí)可以直接獲取動(dòng)作之間的聯(lián)系,而不是重新通過大量探索來認(rèn)知?jiǎng)幼髦g的聯(lián)系,這有利于多個(gè)智能體多目標(biāo)的學(xué)習(xí),并且動(dòng)作向量的獲取只需要在實(shí)現(xiàn)簡(jiǎn)單基礎(chǔ)任務(wù)下的動(dòng)作序列獲得,不需要考慮復(fù)雜的狀態(tài)空間中的最優(yōu)策略問題,在相同動(dòng)作空間背景下,可以一直沿用。
(2)利用特征提取器提取與動(dòng)作相關(guān)的環(huán)境特征,這將使得輸入的環(huán)境與動(dòng)作之間也存在聯(lián)系,動(dòng)作的向量中每一個(gè)元素的位置,都能視為對(duì)環(huán)境的某一特征的影響因素。在這個(gè)基礎(chǔ)上,使用環(huán)境特征預(yù)測(cè)器擬合動(dòng)作向量與環(huán)境特征向量之間的關(guān)系,使得環(huán)境特征預(yù)測(cè)器內(nèi)部能夠?qū)W習(xí)到動(dòng)作向量中,每一個(gè)元素對(duì)環(huán)境特征的貢獻(xiàn),能夠更精準(zhǔn)的實(shí)現(xiàn)對(duì)下一周期環(huán)境特征的預(yù)測(cè),若直接使用原有的動(dòng)作指令作為輸入,則預(yù)測(cè)器還需要進(jìn)一步分解動(dòng)作指令,預(yù)測(cè)器無法很好的學(xué)習(xí)到動(dòng)作和環(huán)境之間的影響關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于周世海,未經(jīng)周世海許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011192071.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 目標(biāo)檢測(cè)裝置、學(xué)習(xí)裝置、目標(biāo)檢測(cè)系統(tǒng)及目標(biāo)檢測(cè)方法
- 目標(biāo)監(jiān)測(cè)方法、目標(biāo)監(jiān)測(cè)裝置以及目標(biāo)監(jiān)測(cè)程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測(cè)方法和目標(biāo)檢測(cè)裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 動(dòng)態(tài)優(yōu)化交通規(guī)劃方法和系統(tǒng)
- 路徑預(yù)約規(guī)劃結(jié)果同步系統(tǒng)及方法
- 一種波長(zhǎng)路由規(guī)劃方法和裝置
- 硬件規(guī)劃的方法和裝置
- 能量供求規(guī)劃裝置及能量供求規(guī)劃方法
- 一種基于企業(yè)效益與用戶體驗(yàn)的微電網(wǎng)規(guī)劃方法
- 城市規(guī)劃方法、裝置及電子設(shè)備
- 場(chǎng)館座位信息的規(guī)劃方法及裝置、系統(tǒng)
- 路徑規(guī)劃系統(tǒng)及路徑規(guī)劃方法
- 基于深度學(xué)習(xí)的路線規(guī)劃方法及系統(tǒng)





