[發明專利]一種任務執行方法及裝置、電子設備和存儲介質有效
| 申請號: | 202110231106.2 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112906888B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 沈天龍;張嘯川 | 申請(專利權)人: | 中國人民解放軍軍事科學院國防科技創新研究院 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06N3/094;G06N3/096;G06N3/0464;G06N3/0475 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100071 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 任務 執行 方法 裝置 電子設備 存儲 介質 | ||
本發明提供一種任務執行方法及裝置、電子設備和存儲介質。其中,任務執行方法包括:獲取現實環境感知數據;將現實環境感知數據輸入至任務執行模型中,得到決策行動數據;根據決策行動數據執行相應的任務;其中,任務執行模型為根據獲取的仿真環境感知數據樣本、仿真決策行動樣本、對應的決策獎勵值樣本、行動后的仿真環境感知數據樣本和現實環境感知數據樣本進行訓練得到。在本發明中,通過利用獲取的多種數據樣本訓練任務執行模型,并根據將獲取的現實環境感知數據輸入至訓練好的任務執行模型所得到的決策行動數據執行相應的任務,極大的縮小了仿真環境與現實環境之間存在的差距,提高了任務執行模型由仿真環境遷移至現實環境的遷移效果。
技術領域
本發明涉及深度強化學習模型虛實遷移技術領域,尤其涉及一種任務執行方法及裝置、電子設備和存儲介質。
背景技術
強化學習是機器學習的一個分支,它與有監督學習或無監督學習不同,它主要基于環境和模型進行互動。具體而言,強化學習用于描述和解決智能體在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。隨著“深度學習”方法的興起,“深度學習”與強化學習結合形成了深度強化學習;進一步的,將深度強化學習與神經網絡建模相結合,便形成了深度強化學習模型。深度強化學習模型,已經成為了人工智能研究中競爭最激烈的領域之一。
深度強化學習模型大多應用于仿真、視頻游戲等非真實物理環境,并且已經取得了極大的成功。然而,強化學習在真實物理系統上的復雜策略仍存在很大的挑戰。強化學習需要智能體與環境進行大量的交互,但是實物機器人強化學習從現實環境中在線試錯獲取樣本的代價極高,完全通過在線強化學習來實現強化學習在實際物理空間中的應用是不切實際的;然而,又由于仿真與現實存在差距,因此將在仿真中訓練的策略遷移到實際系統中部署時通常效果不佳。
上述技術方案存在的缺陷或不足包括:將強化學習模型由仿真環境遷移至現實環境時,存在遷移效果差的問題。
發明內容
針對現有技術中存在的問題,本發明的實施例提供一種任務執行方法及裝置、電子設備和存儲介質。
本發明提供一種任務執行方法,包括:
獲取現實環境感知數據;
將所述現實環境感知數據輸入至任務執行模型中,得到決策行動數據;
根據所述決策行動數據執行相應的任務;
其中,所述任務執行模型為根據獲取的仿真環境感知數據樣本、仿真決策行動樣本、對應的決策獎勵值樣本、行動后的仿真環境感知數據樣本和現實環境感知數據樣本進行訓練得到。
根據本發明提供的一種任務執行方法,所述任務執行模型的訓練方法包括:
基于所述仿真環境感知數據樣本在仿真環境中對深度網絡模型進行深度強化學習訓練,得到訓練好的深度網絡模型,其中,所述深度網絡模型包括圖像編碼層和決策層;
基于仿真環境感知數據樣本和所述現實環境感知數據樣本通過生成對抗網絡模式訓練現實環境編碼網絡,生成訓練好的所述現實環境編碼網絡,其中,所述生成對抗網絡包括仿真環境編碼層、現實環境編碼層和判別層;
將所述決策層與所述現實環境編碼層進行組合,得到所述任務執行模型。
根據本發明提供的一種任務執行方法,所述基于所述仿真環境感知數據樣本在仿真環境中進行深度強化學習訓練,得到訓練好的所述深度網絡模型,包括:
將所述仿真環境感知數據樣本輸入至所述仿真環境編碼層,得到第一編碼特征樣本;
將所述第一編碼特征樣本輸入至決策層,得到所述決策行動數據樣本、所述對應的決策獎勵值樣本以及所述行動后的仿真環境感知數據樣本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院國防科技創新研究院,未經中國人民解放軍軍事科學院國防科技創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110231106.2/2.html,轉載請聲明來源鉆瓜專利網。





