[發(fā)明專利]用于借助于強化學習來訓練控制策略的設備和方法在審
| 申請?zhí)枺?/td> | 202111333359.7 | 申請日: | 2021-11-11 |
| 公開(公告)號: | CN114536319A | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設計)人: | D·斯捷潘諾娃;J·厄施;N·穆斯里烏;T·艾特爾;F·M·里希特 | 申請(專利權)人: | 羅伯特·博世有限公司 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J13/00;G06N3/02;G06N3/08 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 孫云漢;劉春元 |
| 地址: | 德國斯*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 借助于 強化 學習 訓練 控制 策略 設備 方法 | ||
1.一種用于借助于強化學習來訓練控制策略的方法,所述方法具有:
執(zhí)行多次強化學習訓練遍歷,其中在每次強化學習訓練遍歷中,針對代理的狀態(tài)序列的每個狀態(tài)從控制遍歷的初始狀態(tài)開始選擇所要執(zhí)行的行動,其中針對所述狀態(tài)中的至少有些狀態(tài),通過指定計劃范圍來選擇相應的行動,所述計劃范圍指定了狀態(tài)數目;
通過將回答集編程求解器應用于回答集編程程序,確定具有指定的狀態(tài)數目的從相應的狀態(tài)出發(fā)可到達的狀態(tài)的多個序列,所述回答集編程程序對行動與通過所述行動所到達的后續(xù)狀態(tài)之間的關系進行建模;
從所確定的序列中,選擇在所述所確定的序列中提供最大回報的序列,其中由所確定的序列提供的回報是在到達所述序列的狀態(tài)時所獲得的獎勵的總和;而且
選擇能用來從相應的狀態(tài)出發(fā)到達所選擇的序列的第一狀態(tài)的行動,作為針對所述相應的狀態(tài)的行動。
2.根據權利要求1所述的方法,其中針對在強化學習訓練遍歷中所到達的狀態(tài),檢查所述狀態(tài)在所述多次強化學習訓練遍歷中是否是第一次到達的,而且如果所述狀態(tài)在所述多次強化學習訓練遍歷中是第一次到達的,則通過確定所述多個序列、選擇在所述所確定的序列中提供最大回報的序列并且選擇能用來從所述狀態(tài)出發(fā)到達所選擇的序列的第一狀態(tài)的行動來確定所述行動。
3.根據權利要求2所述的方法,其中針對在所述多次強化學習訓練遍歷中已經到達的狀態(tài),按照到目前為止經訓練的控制策略或者隨機選擇所述行動。
4.根據權利要求1至3中任一項所述的方法,其中針對所述狀態(tài)中的至少有些狀態(tài),通過指定第一計劃范圍來選擇相應的行動,所述第一計劃范圍指定了第一數目的狀態(tài);
通過將回答集編程求解器應用于回答集編程程序,確定具有所述第一數目的狀態(tài)的從所述狀態(tài)出發(fā)可到達的狀態(tài)的多個序列,所述回答集編程程序對行動與通過所述行動所到達的后續(xù)狀態(tài)之間的關系進行建模;
而且如果籌措到指定的供支配的計算預算用來確定針對相應的狀態(tài)的行動,則從具有所述第一數目的狀態(tài)的所確定的序列中選擇在所述所確定的序列中提供最大回報的序列,并且選擇能用來從所述相應的狀態(tài)出發(fā)到達所選擇的序列的第一狀態(tài)的行動,作為針對所述相應的狀態(tài)的行動;
而且如果尚未籌措到指定的供支配的計算預算用來確定針對所述相應的狀態(tài)的行動,則
指定第二計劃范圍,所述第二計劃范圍指定了第二數目的狀態(tài),其中狀態(tài)的第二數目大于狀態(tài)的第一數目,
通過將所述回答集編程求解器應用于回答集編程程序,確定具有所述第二數目的狀態(tài)的從所述狀態(tài)出發(fā)可到達的狀態(tài)的多個序列,所述回答集編程程序對行動與通過所述行動所到達的后續(xù)狀態(tài)之間的關系進行建模,
從具有所述第二數目的狀態(tài)的所確定的序列中選擇在所述所確定的序列中提供最大回報的序列,并且
選擇能用來從所述相應的狀態(tài)出發(fā)到達所選擇的序列的第一狀態(tài)的行動,作為針對所述相應的狀態(tài)的行動。
5.根據權利要求1至4中任一項所述的方法,其中所述回答集編程求解器支持多重求解,而且其中借助于所述回答集編程求解器通過多重求解來為在強化學習訓練遍歷中連續(xù)的狀態(tài)確定所述多個序列。
6.一種控制方法,所述控制方法具有:基于根據權利要求1至5中任一項所訓練的控制策略來控制機器人裝置。
7.一種控制設備,所述控制設備被設立為實施根據權利要求1至6中任一項所述的方法。
8.一種計算機程序,其具有程序指令,當所述程序指令由一個或多個處理器來實施時,所述程序指令使所述一個或多個處理器執(zhí)行根據權利要求1至6中任一項所述的方法。
9.一種計算機可讀存儲介質,在其上存儲有程序指令,當所述程序指令由一個或多個處理器來實施時,所述程序指令使所述一個或多個處理器執(zhí)行根據權利要求1至6中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于羅伯特·博世有限公司,未經羅伯特·博世有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111333359.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于確定電儲能器的狀態(tài)變量的方法和裝置
- 下一篇:水泥廠的減碳方法





