[發明專利]一種價值驅動的跨域策略泛化方法及系統在審
| 申請號: | 202310246276.7 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116360257A | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 李學龍;白辰甲;徐康;趙斌;王震 | 申請(專利權)人: | 上海人工智能創新中心 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04;G06N20/00 |
| 代理公司: | 上海智晟知識產權代理事務所(特殊普通合伙) 31313 | 代理人: | 李鏑的 |
| 地址: | 200232 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 價值 驅動 策略 泛化 方法 系統 | ||
本發明總的來說涉及強化學習技術領域,提出一種價值驅動的跨域策略泛化方法及系統。該方法包括:提供源域訓練數據以及目標域訓練數據;基于價值驅動篩選源域訓練數據;以及將篩選出的源域訓練數據以及目標域訓練數據輸入智能體中進行訓練。本發明在源域自身不需要改變的同時,算法不再專注數據的動力學一致性,而是從價值的跨域一致性對源域數據進行篩選,能夠有效提高強化學習中策略的泛化能力,進而可以有效節約運算資源。
技術領域
本發明總的來說涉及強化學習技術領域。具體而言,本發明涉及一種價值驅動的跨域策略泛化方法及系統。
背景技術
現有的主動智能算法能夠利用大量數據解決現實生活中的復雜任務,然而智能體局限于特定環境,存在缺乏針對變化環境的跨域泛化能力的問題。雖然人類能夠基于其他任務或者其他智能體的先驗知識加速自身學習,但現階段的強化學習算法往往難以實現高差別任務之間的泛化,因此如何提高策略的泛化能力是現階段強化學習發展中的一個重要問題。
在強化學習領域中,現有算法通常是針對一個固定的任務訓練對應的最優控制策略,而當任務所在的環境或任務本身發生變化時,原有的控制策略往往無法直接適用。例如,使用強化學習算法針對四足機器人訓練行走控制策略時,當機器人自身電壓發生浮動或者外界環境發生演變時,舊策略往往無法在環境改變時實現機器人的控制。
針對強化學習策略的跨域自適應問題,需要智能體在給定較不受限的源域數據和有限的目標域數據的情況下訓練出對應目標域的高水平策略,其中需要算法針對源域與目標域之間的動力學差異提出一定的解決手段,現有的方法包括:
基于可參數化仿真器的動力學自適應方法,當智能體所在的源域是參數化或者動力學可調時,該方法基于源域與目標域的數據來顯式地調整源域仿真器的動力學參數,使其足夠接近目標域動力學規則,最后在調整后的源域下訓練出的策略便能夠直接部署至目標域。然而該方法需要依賴參數化的仿真器,而許多復雜任務對應的仿真器中的物理屬性是不可調節的。當對應的目標域為現實世界時,目標域相對于源域的動力學差異可能是來自于多樣的原因(例如機器人外界環境的變化),此時若源域的仿真器無法模擬相應的變化,該方法將無法使源域的動力學接近目標域動力學,從而無法訓練出可泛化策略。
基于動作轉換的動力學自適應方法,該方法基于源域和目標域的數據擬合對應的逆動力學模型與動力學模型。在智能體與源域交互并訓練時,基于所訓練的動力學模型來矯正策略執行的動作,從而使得矯正后動作在目標域以及原動作在源域保持動力學一致性,最終實現策略的跨域自適應。然而該方法需要擬合復雜的動力學模型,但對于復雜機器人系統而言,動力學方程非常復雜,神經網絡需要大量樣本進行訓練才能擬合動力學方程,并且需要與環境交互獲得大量的樣本。在有限環境交互的限制下,往往無法獲得充足的樣本來擬合動力學模型。
基于獎勵補償的動力學自適應方法,該方法通過訓練域分類器來對源域收集數據的獎勵數值進行動力學補償。具體來說,當相應的數據接近目標域下的動力學規則時算法為智能體提供額外的正獎勵,當數據不符合目標域的動力學規則時算法為智能體提供負獎勵作為懲罰,其中相應的獎勵補償的數值由域分類器的似然估計決定。然而該方法需要假設存在至少一個目標域高水平策略且該策略在源域同樣有著較好表現,當源域和目標域不滿足上述假設時,該方法會基于域分類器對所有源域數據進行懲罰,從而阻礙策略對目標域的探索,導致算法無法收斂到高水平策略。
發明內容
為至少部分解決現有技術中的上述問題,本發明提出一種價值驅動的跨域策略泛化方法,包括下列步驟:
提供源域訓練數據以及目標域訓練數據:
篩選源域訓練數據,其中包括:
提供狀態動作數據對(s,a),確定源域下一時刻狀態s′src,并且通過目標域動力學模型確定目標域下一時刻狀態集合
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海人工智能創新中心,未經上海人工智能創新中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310246276.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種環保墻體的支撐結構
- 下一篇:光學成像系統





