[發明專利]一種強化學習的目標規劃方法有效
| 申請號: | 202011192071.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112257872B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 周世海 | 申請(專利權)人: | 周世海 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 315722 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習 目標 規劃 方法 | ||
1.一種強化學習的目標規劃方法,其特征在于,包括:
S1、收集若干個已收斂的具有相同動作空間的智能體,根據其動作序列,計算其執行任務時,得到的動作序列中每個動作的向量表示,整合為一個動作-向量對應的動作向量字典,然后在目標訓練環境中放入要訓練的具有相同動作空間的執行器;
S2、通過特征提取器,提取與動作相關的環境特征向量,作為執行器的外部輸入;
S3、將當前周期,S2中提取的環境特征向量以及執行器輸出執行的動作的向量表示合并為一個向量,作為下一周期環境特征預測器的輸入,通過環境特征預測器計算得到下一周期的環境特征向量;
S4、給定一個任務最終狀態目標環境,通過特征提取器得到目標環境特征向量;
S5、根據當前環境特征向量以及目標環境特征向量之間的距離,以縮短距離以及減少迭代次數為目標,迭代計算得到一組迭代得到的環境特征向量與動作一一對應的規劃序列;
S6、將規劃序列作為訓練集,對執行器進行規劃訓練;
其中,所述S6包括:
S61、所述執行器為包括策略器和價值器可環境探索與自我訓練的強化學習智能體,判斷當前執行器是否開始探索環境與自我訓練,若否,以執行器投入訓練環境時的初始狀態和給定的目標得到一組初始規劃序列,對執行器的策略器進行訓練,然后開始進入探索環境狀態;若是,則不使用規劃序列對執行器的策略器進行訓練,并轉入S62;
S62、判斷當前執行器的策略器是否收斂,若不收斂,則執行器繼續進行環境探索與自我訓練;若收斂,根據當前環境特征向量和目標環境特征向量,計算得到一組規劃序列,轉入S63;
S63、根據執行器的任務目標評判規劃序列與執行器策略的價值高低,若規劃序列價值高,則使用規劃序列作為訓練集,對執行器的策略器進行訓練;若執行器策略價值高于或等于規劃序列,則重新迭代計算,優化規劃序列,重復比較價值高低,所述重復次數為N,若重復次數大于等于N,轉入S64;
S64、采集執行器的環境特征向量與對應動作,作為訓練集對規劃器的策略器進行訓練,然后轉回S61。
2.根據權利要求1所述的一種強化學習的目標規劃方法,其特征在于,所述S1中動作向量表示,通過將動作序列視為文本序列,利用nlp中的詞向量嵌入原理得到。
3.根據權利要求1所述的一種強化學習的目標規劃方法,其特征在于,所述S2中的特征提取方法,包括一個特征提取器以及一個執行器動作預測器,將特征提取器當前周期輸出的環境特征向量以及下一周期輸出的環境特征向量合并為一個向量作為執行器動作預測器的輸出,利用當前周期執行器輸出的動作與執行器動作預測器輸出的動作的差異,作為特征提取器以及執行器動作預測器的損失函數。
4.根據權利要求1所述的一種強化學習的目標規劃方法,其特征在于,所述S5包括:
S51、將環境特征預測器作為環境函數,將一個基于強化學習的智能體作為規劃器,所述規劃器包括策略器和價值器,構建環境與智能體之間的數據循環;
S52、將當前環境特征向量作為規劃器的策略器的輸入,得到規劃器的策略器的動作輸出;
S53、根據動作向量字典將規劃器的策略器的動作轉化為向量表示,然后與當前環境特征向量合并輸入到環境特征預測器中,預測獲得以規劃為目的的下一周期環境特征向量,并將該以規劃為目的的下一周期環境特征向量作為規劃器的策略器的新輸入,依次迭代,獲得一組規劃序列;
S54、使用規劃器的價值器評判規劃序列價值,更新優化規劃序列的組合策略,直至收斂。
5.根據權利要求1所述的一種強化學習的目標規劃方法,其特征在于,所述動作的向量表示和環境特征向量具有相同的維度。
6.根據權利要求3所述的一種強化學習的目標規劃方法,其特征在于,在合并得到環境特征預測器的輸入前,分別對動作的向量表示和環境特征向量進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于周世海,未經周世海許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011192071.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新能源汽車充電樁
- 下一篇:一種收卷硬度可控的大分切工藝設計方法





