[發(fā)明專(zhuān)利]一種基于生成對(duì)抗網(wǎng)絡(luò)的機(jī)器人自主學(xué)習(xí)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111344484.8 | 申請(qǐng)日: | 2021-11-15 |
| 公開(kāi)(公告)號(hào): | CN116151385A | 公開(kāi)(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計(jì))人: | 庫(kù)濤;俞寧;林樂(lè)新;劉金鑫;李進(jìn) | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所 |
| 主分類(lèi)號(hào): | G06N20/00 | 分類(lèi)號(hào): | G06N20/00;G06N7/01;B25J9/16 |
| 代理公司: | 沈陽(yáng)科苑專(zhuān)利商標(biāo)代理有限公司 21002 | 代理人: | 王倩 |
| 地址: | 110016 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 生成 對(duì)抗 網(wǎng)絡(luò) 機(jī)器人 自主 學(xué)習(xí)方法 | ||
本發(fā)明構(gòu)建了一種基于生成對(duì)抗網(wǎng)絡(luò)的機(jī)器人自主學(xué)習(xí)方法,并應(yīng)用于工業(yè)場(chǎng)景中少樣本或零樣本的機(jī)器人自主學(xué)習(xí)。方法步驟為:1)基于馬爾科夫鏈對(duì)機(jī)器人行為動(dòng)作建立鏈?zhǔn)侥P停?)根據(jù)已有樣本或?qū)<覕?shù)據(jù),利用生成對(duì)抗網(wǎng)絡(luò)獲取更多樣本;3)通過(guò)逆強(qiáng)化學(xué)習(xí)獲取獎(jiǎng)勵(lì)函數(shù)和訓(xùn)練最優(yōu)決策;4)根據(jù)獎(jiǎng)勵(lì)函數(shù)和最優(yōu)策略,獲取最優(yōu)值函數(shù)及最優(yōu)策略函數(shù);5)完成機(jī)器人自主學(xué)習(xí)模型建立。本發(fā)明提出的基于生成對(duì)抗網(wǎng)絡(luò)的機(jī)器人自主學(xué)習(xí)方法主要面向工業(yè)場(chǎng)景中在缺少經(jīng)驗(yàn)樣本的情況下,通過(guò)生成對(duì)抗網(wǎng)絡(luò)和逆強(qiáng)化學(xué)習(xí)的結(jié)合實(shí)現(xiàn)機(jī)器人自主學(xué)習(xí)的目標(biāo),從而提高機(jī)器人的自動(dòng)化和智能化水平。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器人智能控制和機(jī)器人自主學(xué)習(xí)領(lǐng)域,具體說(shuō)是一種基于生成對(duì)抗網(wǎng)絡(luò)的機(jī)器人自主學(xué)習(xí)方法。
背景技術(shù)
機(jī)器人自主學(xué)習(xí)方法主要指使機(jī)器人通過(guò)自行與環(huán)境交互,積累經(jīng)驗(yàn)數(shù)據(jù),從而自主進(jìn)行動(dòng)作決策的機(jī)器學(xué)習(xí)方法。機(jī)器人自主學(xué)習(xí)屬于機(jī)器人控制的重要手段之一,常常在智能化綜合控制系統(tǒng)中的機(jī)器人環(huán)境感知、行為控制、動(dòng)態(tài)決策、自動(dòng)執(zhí)行等功能中扮演著重要的角色。這不僅需要機(jī)器人學(xué)習(xí)的決策方法具有很高的優(yōu)化程度,也對(duì)學(xué)習(xí)速度、反應(yīng)速度等指標(biāo)有著極高的要求。因此,不斷改進(jìn)機(jī)器人自主學(xué)習(xí)方法是當(dāng)今機(jī)器人研究的一項(xiàng)重要課題。
通常這類(lèi)學(xué)習(xí)方法需要通過(guò)大量樣本訓(xùn)練,并且由人為進(jìn)行關(guān)鍵參數(shù)設(shè)定,確保學(xué)習(xí)的效率和準(zhǔn)確度。這就使得機(jī)器人的學(xué)習(xí)結(jié)果往往被數(shù)據(jù)及大小以及人為參數(shù)設(shè)定所限制。同時(shí),如果數(shù)據(jù)集存在被污染的數(shù)據(jù),很可能導(dǎo)致最終優(yōu)化程度大大降低,甚至無(wú)法滿(mǎn)足實(shí)際需求。此外,這種方法需要設(shè)計(jì)者對(duì)實(shí)際場(chǎng)景具有較高的經(jīng)驗(yàn)基礎(chǔ),才能準(zhǔn)確設(shè)置參數(shù),如果設(shè)計(jì)者不能準(zhǔn)確的判斷實(shí)際需求,很可能會(huì)導(dǎo)致學(xué)習(xí)方向出現(xiàn)偏差,最終無(wú)法達(dá)到期望的決策能力。以上問(wèn)題是目前機(jī)器人自主學(xué)習(xí)中急需解決的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明結(jié)合生成對(duì)抗網(wǎng)絡(luò)技術(shù)和逆強(qiáng)化學(xué)習(xí)方法,將兩者合二為一,提出了一種機(jī)器人自主學(xué)習(xí)方法,其目的降低機(jī)器人自主學(xué)習(xí)對(duì)專(zhuān)家樣本的依賴(lài),提高機(jī)器人學(xué)習(xí)效率,增加機(jī)器人自主決策的優(yōu)化程度。
本發(fā)明為實(shí)現(xiàn)上述目的所采用的技術(shù)方案是:
一種基于生成對(duì)抗網(wǎng)絡(luò)的機(jī)器人自主學(xué)習(xí)方法,包括以下步驟:
構(gòu)建馬爾科夫鏈?zhǔn)侥P停@取機(jī)器人完整的動(dòng)作軌跡和決策步驟,對(duì)其進(jìn)行采樣,生成表示動(dòng)作的真實(shí)樣本集合,將真實(shí)樣本集合存入真實(shí)樣本池;
隨機(jī)產(chǎn)生信號(hào)并傳入生成器中,生成器生成樣本,并將生成樣本存入虛擬樣本池;
將生成樣本傳入判別器,判別器將生成樣本與真實(shí)樣本進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果動(dòng)態(tài)調(diào)整生成樣本,更新虛擬樣本池;
將更新后的虛擬樣本池與真實(shí)樣本池進(jìn)行混合,構(gòu)成混合樣本池,隨機(jī)抽取混合樣本池中的數(shù)據(jù);
隨機(jī)產(chǎn)生策略,并執(zhí)行策略;
對(duì)被執(zhí)行的策略進(jìn)行采樣,并將采樣結(jié)果與混合樣本池中抽取的數(shù)據(jù)進(jìn)行對(duì)比,得到獎(jiǎng)勵(lì)函數(shù)和最優(yōu)策略;
根據(jù)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練馬爾科夫鏈?zhǔn)侥P停瑢C(jī)器人的狀態(tài)作為模型的輸入,得到其對(duì)應(yīng)的動(dòng)作,完成機(jī)器人的自主學(xué)習(xí)。
所述構(gòu)建馬爾科夫鏈?zhǔn)侥P途唧w為:根據(jù)馬爾科夫鏈模型建立一個(gè)五元組?(S,A,P,R,γ),其中集合S表示當(dāng)前的狀態(tài)集,集合A表示下一時(shí)刻動(dòng)作集,P為A中各種動(dòng)作的概率,R為獎(jiǎng)勵(lì)函數(shù),γ∈(0,1)為折扣系數(shù)。
所述判別器將生成樣本與真實(shí)樣本進(jìn)行對(duì)比,具體為:將生成樣本與真實(shí)樣本進(jìn)行混合構(gòu)成訓(xùn)練樣本,送入判別器中進(jìn)行判別,輸出訓(xùn)練樣本來(lái)自生成樣本的概率D(x)。
所述根據(jù)對(duì)比結(jié)果動(dòng)態(tài)調(diào)整生成樣本,具體為,根據(jù)概率D(x),分別計(jì)算判別器的損失函數(shù)和生成器的損失函數(shù),當(dāng)判別器的損失函數(shù)和生成器的損失函數(shù)達(dá)到納什均衡時(shí),停止調(diào)整生成樣本。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111344484.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種異質(zhì)結(jié)型CeO2/ZnO阻變耐蝕薄膜及其制備方法
- 下一篇:適用于類(lèi)神經(jīng)網(wǎng)絡(luò)模型的計(jì)算系統(tǒng)及實(shí)現(xiàn)類(lèi)神經(jīng)網(wǎng)絡(luò)模型的方法
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類(lèi)數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無(wú)人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





