[發(fā)明專利]一種強化學習的目標規(guī)劃方法有效
| 申請?zhí)枺?/td> | 202011192071.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112257872B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設計)人: | 周世海 | 申請(專利權)人: | 周世海 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 315722 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習 目標 規(guī)劃 方法 | ||
本發(fā)明通過將強化學習中的動作,通過詞向量嵌入的方式,轉化為具有內(nèi)在聯(lián)系的向量表示,以此作為預測器,并結合給定目標的環(huán)境特征,計算其到達目標狀態(tài)的規(guī)劃路徑,從而將稀疏環(huán)境獎勵轉化為密集獎勵的形式。同時,通過采用規(guī)劃器和執(zhí)行器對抗訓練的方式,一定程度上解決了局部最優(yōu)問題。
技術領域
本發(fā)明涉及人工智能技術領域,尤其是涉及一種強化學習的目標規(guī)劃方法。
背景技術
在強化學習中,涉及一個局部最優(yōu)問題,即當狀態(tài)空間過大時,智能體容易停留在當前探索到的策略中價值最高的一種策略,但該策略并不是最優(yōu)策略,使得智能體無法很好的完成指定任務。
另外,在強化學習中還存在稀疏獎勵問題,即在智能體執(zhí)行任務探索環(huán)境時,給定的獎勵很稀少,如只在達到最終目標時才給定獎勵,在未達到目標時沒有任何獎勵。這容易導致智能體在初始訓練時難以掌握給定的任務目標,同時也進一步加大了局部最優(yōu)問題帶來的干擾。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是提供一種能一定程度上克服局部最優(yōu)問題、能夠將稀疏獎勵轉在智能體內(nèi)部轉換為密集獎勵的強化學習的目標規(guī)劃方法。
本發(fā)明所采用的技術方案是,一種強化學習的目標規(guī)劃方法,包括:
S1、收集若干個已收斂的具有相同動作空間的智能體,根據(jù)其動作序列,計算其執(zhí)行任務時,得到的動作序列中每個動作的向量表示,整合為一個動作-向量對應的動作向量字典,然后在目標訓練環(huán)境中放入要訓練的具有相同動作空間的執(zhí)行器;
S2、通過特征提取器,提取與動作相關的環(huán)境特征向量,作為執(zhí)行器的外部輸入;
S3、將當前周期,S2中提取的環(huán)境特征向量以及執(zhí)行器輸出執(zhí)行的動作的向量表示合并為一個向量,作為下一周期環(huán)境特征預測器的輸入,通過環(huán)境特征預測器計算得到下一周期的環(huán)境特征向量;
S4、給定一個任務最終狀態(tài)目標環(huán)境,通過特征提取器得到目標環(huán)境特征向量;
S5、根據(jù)當前環(huán)境特征向量以及目標環(huán)境特征向量之間的距離,以縮短距離以及減少迭代次數(shù)為目標,迭代計算得到一組迭代得到的環(huán)境特征向量與動作一一對應的規(guī)劃序列;
S6、將規(guī)劃序列作為訓練集,對執(zhí)行器進行規(guī)劃訓練。
本發(fā)明的有益效果是:
(1)將動作序列中的每一個動作表示為向量的形式,這將為每個動作都賦予其基礎內(nèi)涵,并且動作與動作之間也賦予了相似關系,每一個動作不再是獨立存在,智能體在進行目標規(guī)劃時可以直接獲取動作之間的聯(lián)系,而不是重新通過大量探索來認知動作之間的聯(lián)系,這有利于多個智能體多目標的學習,并且動作向量的獲取只需要在實現(xiàn)簡單基礎任務下的動作序列獲得,不需要考慮復雜的狀態(tài)空間中的最優(yōu)策略問題,在相同動作空間背景下,可以一直沿用。
(2)利用特征提取器提取與動作相關的環(huán)境特征,這將使得輸入的環(huán)境與動作之間也存在聯(lián)系,動作的向量中每一個元素的位置,都能視為對環(huán)境的某一特征的影響因素。在這個基礎上,使用環(huán)境特征預測器擬合動作向量與環(huán)境特征向量之間的關系,使得環(huán)境特征預測器內(nèi)部能夠學習到動作向量中,每一個元素對環(huán)境特征的貢獻,能夠更精準的實現(xiàn)對下一周期環(huán)境特征的預測,若直接使用原有的動作指令作為輸入,則預測器還需要進一步分解動作指令,預測器無法很好的學習到動作和環(huán)境之間的影響關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于周世海,未經(jīng)周世海許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011192071.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種新能源汽車充電樁
- 下一篇:一種收卷硬度可控的大分切工藝設計方法





