[發(fā)明專利]基于第三人稱模仿學習的機械臂動作學習方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010040178.4 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111136659B | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設計)人: | 章宗長;俞揚;姜沖 | 申請(專利權(quán))人: | 南京大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 第三人稱 模仿 學習 機械 動作 學習方法 系統(tǒng) | ||
本發(fā)明公開一種基于第三人稱模仿學習的機械臂動作學習方法及系統(tǒng),用于機械臂自動控制,使得機械臂可以通過觀看第三方示范來自動學習如何完成相應的操控任務。本發(fā)明中樣本均以視頻形式存在,而無需使用大量傳感器來獲取狀態(tài)信息;在判別器模塊中使用了圖像差分方法,可以使判別器模塊忽略學習對象的外觀與環(huán)境背景,從而可以使用第三方示范數(shù)據(jù)進行模仿學習;大大降低了樣本的獲取成本;通過在判別器模塊中使用了變分判別器瓶頸來約束判別器對由機械臂產(chǎn)生的示范的判別準確率,更好地平衡判別器模塊與控制策略模塊的訓練過程;本發(fā)明能夠快速模仿用戶示范的動作,操作簡單靈活,對環(huán)境及示范者要求低。
技術領域
本發(fā)明涉及一種基于第三人稱模仿學習的機械臂動作學習方法及系統(tǒng),屬于機械臂動作自動學習技術領域。
背景技術
機械臂是目前機器人最主要的執(zhí)行機構(gòu),也是應用最廣泛的自動化機械裝置。傳統(tǒng)的機械臂控制需要基于動作規(guī)劃編程來實現(xiàn),這種方法的復雜度高,對使用者的專業(yè)知識能力要求高,并且學習效率與智能程度都非常低。隨著現(xiàn)實需要的動作任務越來越復雜,傳統(tǒng)的機械臂動作控制系統(tǒng)已經(jīng)很難滿足用戶的需求了。
模仿是人類獲取運動技能最直接最有效的一種學習方式,通過觀看他人的示范,人類可以快速地學習到相應的技能。模仿學習方法將人類的這種快速學習能力賦予了機器人,使得機器人能夠像人類一樣從示范中學習相應的操作。相比于傳統(tǒng)的機械臂自動控制方法來說,模仿學習這種近似于人類的學習方式具有更高的學習效率以及智能程度,同時也能夠減輕操作人員的負擔,使其無需再額外學習專門的編程語言來進行動作規(guī)劃編程。
生成對抗模仿學習是目前模仿學習中最具代表性的一種學習方法。生成對抗模仿學習構(gòu)建了兩個互相博弈并可以在博弈過程中不斷改進的個體,分別為生成器和判別器。其中,生成器的目標是生成與示范樣本相同的樣本,使得判別器無法判斷樣本的來源;判別器的目標是盡可能地區(qū)分示范樣本與生成樣本;根據(jù)判別結(jié)果,生成器與判別器會分別更新自身參數(shù),并開始下一輪博弈。經(jīng)過不斷地博弈和改進,二者最終會達到納什均衡,此時由生成器生成的樣本能夠以假亂真,判別器無法再準確的判別樣本來源。二者博弈過程可形式化地表示如下:
其中,(s,a)為狀態(tài)動作對,表示的是示范者或生成器在狀態(tài)s處采取動作a;Dω為判別器;πθ表示生成器(或是策略);下標表示樣本來自生成器;下標τE表示樣本來自示范。
模仿學習方法可以使機器人從操作人員提供的示范中學習得到相應的操作。但是,模仿學習方法通常需要這些示范來自于第一人稱視角,即操作人員手把手的進行示范,然后把示范過程中的狀態(tài)以及動作信息(如關節(jié)角度、運動速度等)記錄下來作為示范樣本。為了獲取這種第一人稱的操作示范,機械臂上需要安裝大量的傳感器,如紅外測距傳感器、壓力傳感器、光電編碼器等,這大大的增加了機械臂的使用成本。另外,不同機械臂上的傳感器數(shù)據(jù)可能會有很大的不同,這也就會導致機械臂的示范樣本通用性較差,示范的使用成本進一步提高。
該問題的一種解決方法就是使用視頻形式的示范樣本,即第三方示范數(shù)據(jù)。然而,第三方示范數(shù)據(jù)中僅包含有第三方視角下的觀察圖像,而沒有詳細的狀態(tài)以及動作信息;并且,第三方示范視頻中的環(huán)境背景以及示范者外觀等都有可能與機械臂自身不同,即兩者之間可能存在一些領域特征差異。此時,如果示范數(shù)據(jù)與機械臂自身產(chǎn)生的樣本之間沒有一一對應的關系,則機械臂難以從示范數(shù)據(jù)中學習到相應的控制策略。Bradly等人針對這一情況提出了一種第三人稱模仿學習方法(Third-Person Imitation Learning),該方法在生成對抗模仿學習的基礎上引入了領域混淆的概念,可以模糊化樣本中的領域信息,使得智能體可以使用第三方示范數(shù)據(jù)進行模仿學習。但是,該方法需要額外增加一類示范數(shù)據(jù)才能夠達到領域混淆的目的,這一類示范是使用一個隨機策略在示范者的領域中生成的。這一類示范的引入也大大增加了學習成本。
發(fā)明內(nèi)容
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學,未經(jīng)南京大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040178.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





