[發明專利]智能體訓練方法及裝置、存儲介質及電子設備有效
| 申請號: | 202010901910.2 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112036578B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 李焱;覃小春;李佶學 | 申請(專利權)人: | 成都數字天空科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08;G06F8/30 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 610041 四川省成都市高新區中國*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 訓練 方法 裝置 存儲 介質 電子設備 | ||
本申請涉及人工智能技術領域,提供一種智能體訓練方法及裝置、存儲介質及電子設備。其中,智能體訓練方法包括:接收第一算法側發起的第一動作執行請求;向第一環境側發送作為第一環境側之前發起的第一動作獲取請求的返回結果的第一動作,以使第一環境側執行第一動作;接收第一環境側發起的第二動作獲取請求;向第一算法側發送作為第一動作執行請求的返回結果的第二狀態,以使第一算法側根據第二狀態更新智能體,并獲取更新后的智能體選擇出的第二動作,第二動作為第一算法側之后要發起的第二動作執行請求中攜帶的動作。該方法使得算法設計人員和環境開發人員都可以按照自己習慣的邏輯進行程序開發,因此顯著提高了算法和環境開發的效率。
技術領域
本發明涉及人工智能技術領域,具體而言,涉及一種智能體訓練方法及裝置、存儲介質及電子設備。
背景技術
強化學習是一種通過智能體與環境互動,不斷搜集數據反饋,最終產生智能行為的一種機器學習方式,相比監督學習,強化學習不需要人工標注數據,可以使用在很多場景中。
以游戲環境為例,強化學習的過程主要涉及兩端:算法和游戲,分別由算法設計人員和游戲開發人員負責開發。算法設計人員希望的邏輯是“算法驅動游戲”,即算法根據需要控制游戲何時執行動作;游戲開發人員希望的邏輯是“游戲驅動算法”,即游戲根據需要控制何時向算法請求要執行的動作;其中,游戲執行的動作由算法中的智能體根據游戲的當前狀態等因素自動選擇,強化學習所要訓練的目標也就是該智能體。
然而,“算法驅動游戲”和“游戲驅動算法”兩種邏輯存在一定矛盾,前者要求游戲開發適配于算法,因此游戲開發人員需付出較大的工作量,后者要求算法開發適配于游戲,因此算法設計人員需付出較大的工作量。因此,無論采用哪種邏輯都會導致開發效率不高。
發明內容
本申請實施例的目的在于提供一種智能體訓練方法、模型訓練方法及對應裝置,以改善上述技術問題。
為實現上述目的,本申請提供如下技術方案:
第一方面,本申請實施例提供一種智能體訓練方法,應用于中間平臺,所述方法包括:接收第一算法側發起的第一動作執行請求;其中,所述第一動作執行請求中攜帶有第一動作,所述第一動作為智能體根據第一狀態選擇出的動作,所述第一狀態為第一環境側在執行所述第一動作的上一動作后處于的狀態;向所述第一環境側發送作為所述第一環境側之前發起的第一動作獲取請求的返回結果的所述第一動作,以使所述第一環境側執行所述第一動作;接收所述第一環境側發起的第二動作獲取請求;其中,所述第二動作獲取請求中攜帶有第二狀態,所述第二狀態為所述第一環境側在執行所述第一動作后處于的狀態;向所述第一算法側發送作為所述第一動作執行請求的返回結果的所述第二狀態,以使所述第一算法側根據所述第二狀態更新所述智能體,并獲取更新后的智能體選擇出的第二動作;其中,所述第二動作為所述第一算法側之后要發起的第二動作執行請求中攜帶的動作。
上述方法在算法側和環境側(包括但不限于游戲)之間設置一個中間平臺,使得算側和環境側之間的交互都通過該中間平臺實現。該中間平臺對于環境側和算法側而言都是透明的,在算法側看來,自己根據需要控制環境側何時執行動作(通過發送針對環境側的動作執行請求),即實現了“算法驅動環境”的邏輯;在環境側看來,自己根據需要控制何時從算法請求要執行的動作(通過發送針對算法側的動作獲取請求),即實現了“環境驅動算法”的邏輯。從而,無論是算法設計人員還是環境開發人員,都可以按照自己習慣的邏輯進行程序開發,因此顯著提高了算法開發和環境開發的效率,使得強化學習任務(即訓練智能體)可以在較短時間內完成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數字天空科技有限公司,未經成都數字天空科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010901910.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種三元電池材料回收再利用設備
- 下一篇:一種受保護二維碼的信息追蹤方法





