[發(fā)明專利]用于目標(biāo)系統(tǒng)的控制系統(tǒng)的生成有效
| 申請?zhí)枺?/td> | 201880071015.3 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN111433689B | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計(jì))人: | 哈里·瓦爾波拉;艾娃·科帕利 | 申請(專利權(quán))人: | 柯納睿資本有限責(zé)任公司 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02;G05B13/04 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 魏小薇;吳麗麗 |
| 地址: | 美國特*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 目標(biāo) 系統(tǒng) 控制系統(tǒng) 生成 | ||
1.一種生成用于目標(biāo)系統(tǒng)(110)的控制系統(tǒng)(120)的方法,所述方法包括:
接收至少一個(gè)源系統(tǒng)的操作數(shù)據(jù)(210),
使用接收到的所述操作數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的第一神經(jīng)模型組件,其中基于接收到的所述操作數(shù)據(jù)訓(xùn)練所述第一神經(jīng)模型組件以生成對所述目標(biāo)系統(tǒng)(110)的狀態(tài)的預(yù)測,
使用所述操作數(shù)據(jù)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)的第二神經(jīng)模型組件,其中,所述第二神經(jīng)模型組件生成用于反轉(zhuǎn)給定所述操作數(shù)據(jù)作為輸入的所述第一神經(jīng)模型組件的正則器,以及
通過優(yōu)化來反轉(zhuǎn)所述第一神經(jīng)模型組件,以生成用于所述目標(biāo)系統(tǒng)(110)的所述控制系統(tǒng)(120),其中,由所述第二神經(jīng)模型組件生成的所述正則器被添加到所述優(yōu)化中的值函數(shù)以將所述優(yōu)化引向?qū)?yīng)于所述操作數(shù)據(jù)中的典型樣本的值。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述第二神經(jīng)模型組件是以下項(xiàng)之一:去噪神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、變分自編碼器、梯形網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求1所述的方法,其中,通過生成被配置為生成至少一個(gè)控制信號的策略模型組件并優(yōu)化所述策略模型組件的參數(shù)而進(jìn)行優(yōu)化,由此生成所述控制系統(tǒng)(120)。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述策略模型組件通過以下方式之一來實(shí)現(xiàn):利用訓(xùn)練的第三神經(jīng)模型組件、通過優(yōu)化屬于所述控制系統(tǒng)的控制器組件的參數(shù)。
5.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其中,由所述第二神經(jīng)模型組件生成的作為所述正則器的正則項(xiàng)是所述第二神經(jīng)模型組件的近似密度梯度。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述正則項(xiàng)被應(yīng)用作在第三神經(jīng)模型組件的權(quán)重的更新中的項(xiàng)。
7.一種用于目標(biāo)系統(tǒng)(110)的控制系統(tǒng)(120),所述控制系統(tǒng)包括至少一個(gè)神經(jīng)網(wǎng)絡(luò),其中,所述控制系統(tǒng)(120)被配置為由以下方式生成:
接收至少一個(gè)源系統(tǒng)的操作數(shù)據(jù)(210),
使用接收到的所述操作數(shù)據(jù)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)的第一神經(jīng)模型組件,其中,基于響應(yīng)于輸入信號接收到的所述操作數(shù)據(jù)訓(xùn)練所述第一神經(jīng)模型組件以生成對所述目標(biāo)系統(tǒng)(110)狀態(tài)的預(yù)測,
使用所述操作數(shù)據(jù)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)的第二神經(jīng)模型組件,其中,所述第二神經(jīng)模型組件生成用于反轉(zhuǎn)給定所述操作數(shù)據(jù)作為輸入的所述第一神經(jīng)模型組件的正則器,以及
通過優(yōu)化來反轉(zhuǎn)所述第一神經(jīng)模型組件,以生成用于所述目標(biāo)系統(tǒng)(110)的所述控制系統(tǒng)(120),其中,由所述第二神經(jīng)模型組件生成的所述正則器被添加到所述優(yōu)化中的值函數(shù)以將所述優(yōu)化引向?qū)?yīng)于所述操作數(shù)據(jù)中的典型樣本的值。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述第二神經(jīng)模型組件是以下項(xiàng)之一:去噪神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)、變分自編碼器、梯形網(wǎng)絡(luò)。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,通過生成被配置為生成至少一個(gè)控制信號的策略模型組件并優(yōu)化所述策略模型組件的參數(shù)來進(jìn)行優(yōu)化,由此生成所述控制系統(tǒng)(120)。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述策略模型組件通過以下方式之一來實(shí)現(xiàn):利用訓(xùn)練的第三神經(jīng)模型組件、通過優(yōu)化屬于所述控制系統(tǒng)的控制器組件的參數(shù)。
11.根據(jù)前述權(quán)利要求7至10中的任一項(xiàng)所述的系統(tǒng),其中,由所述第二神經(jīng)模型組件生成的作為所述正則器的正則項(xiàng)被布置為所述第二神經(jīng)模型組件的近似密度梯度。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述正則項(xiàng)被配置為應(yīng)用作在第三神經(jīng)模型組件的權(quán)重的更新中的項(xiàng)。
13.一種計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行程序代碼指令,當(dāng)在計(jì)算機(jī)上執(zhí)行所述計(jì)算機(jī)可執(zhí)行程序代碼指令時(shí),所述計(jì)算機(jī)可執(zhí)行程序代碼指令用于執(zhí)行根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于柯納睿資本有限責(zé)任公司,未經(jīng)柯納睿資本有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880071015.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法





