[發明專利]一種基于視覺模仿的機器人序列任務學習方法有效
| 申請號: | 202010036162.6 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111203878B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 賈之馨;林夢香;陳智鑫 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;鄧治平 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 模仿 機器人 序列 任務 學習方法 | ||
一種基于視覺模仿的機器人序列任務學習方法,用于指導機器人從包含人類動作的視頻中模仿執行人類動作。步驟為:(1)根據輸入圖像,利用基于區域的掩碼卷積神經網絡識別物體種類與掩碼;(2)根據掩碼計算物體實際平面物理坐標(x,y);(3)識別目標視頻中的原子動作;(4)將原子動作序列與識別得到的物體種類轉化為一維向量;(5)將該一維向量輸入任務規劃器,輸出可指導機器人的任務描述向量;(6)結合任務描述向量和物體坐標,控制機器人完成機器人對目標視頻中序列任務的模仿。本發明以視頻和圖像作為輸入,識別物體及推斷任務序列,指導機器人完成對目標視頻的模仿,同時泛化性強,在不同的環境或物體種類下仍可以完成模仿任務。
技術領域
本發明涉及一種根據視覺傳感器和視頻輸入進行機器人模仿人類完成各種任務的方法,屬于機器人控制領域、深度學習和模仿學習領域,主要應用于通過視頻教會機器人模仿人類完成搬運、打掃、分類或擺放物體等應用場景。
背景技術
近些年以來,隨著人工智能領域、智能機器人領域的快速發展,智能產品如機器人在人類的生活中占據著越來越重要的角色,而在智能的背后是復雜的算法和控制方式。“工業革命4.0”、“中國制造2025”的時代背景下機器人,機械臂等與人工智能領域的研究愈發成為各國各高校、各企業、各大實驗室研究創新的主流。利用人工智能技術為傳統機械臂、機器人裝上“大腦”將是下一次產業技術革命的重要技術支撐。并且,隨著機器人和其他智能體從簡單的環境或任務向復雜環境和任務涉足,為其運動的手動編程必須面對更大的困難和昂貴的時間代價,因此開發一種新的技術方法,越過對復雜環境與任務的手動編程,是迫切需要的,模仿學習就是針對這一問題,從數據中“模仿”人的動作,使機器人自己學會完成復雜任務。
從我們人類學習一個任務的過程出發,通常都是通過模仿老師的示范動作來學習的。也就是將老師的動作,還原到自己的環境下復現。這種從示教中學習的模式或算法,被稱為模仿學習。近年來,模仿學習日益成為人工智能領域的研究熱點。模仿學習是一種基于專家示教重建期望策略的方法,能通過專家的示教快速高效的模仿動作。示教的數據可以是視頻、動作軌跡數據或任務序列等等。在理論研究中,模仿學習方法與強化學習、深度學習等方法相結合,已經取得了重要的成果。在實際應用中,尤其是在機器人和其他智能體的復雜環境中,模仿學習通過其示教中學習的特性也取得了很好的效果,能夠模仿人類的動作行為。相比強化學習在很大的動作狀態空間中的搜索模式,模仿學習通過專家示教,“告訴”機器人什么行為是對完成任務有益的,什么行為是消極的,通過這樣的方式監督機器人的動作逐漸擬合到示教的動作上,從而更高效地學習目標任務。
機械臂作為一種類似人類手臂的機械結構,選擇基于機械臂的模仿學習研究,能夠通過實驗模仿大多數人類的肢體動作。同時基于物體識別動作分割的先驗知識,能夠進一步加速學習過程,提高模型對不同環境的泛化能力。
模仿學習作為機器學習領域的一個分支,它包含了兩大類方法:行為克隆方法和逆強化學習方法。行為克隆方法主要思想是基于包含了行為軌跡、狀態動作對或任務序列的示教數據,通過學習的方法模擬示教者的動作。逆強化學習方法,是通過是示教數據(往往是包含動作的視頻)提取出有用的特征,重新建立獎勵函數,在通過強化學習的方法進行動作的模仿學習。
早期的模仿學習研究把無模型的行為克隆方法理解為監督學習。早些年Abbeel等人提出訓練一個神經網絡用于自動駕駛系統,這一神經網絡建立一個從攝像機圖象到轉向角映射的模型。但是這一工作在實踐中并不成功。主要原因有兩個:一是由于示教數據集有限,學徒遇到的狀態分布與給定的示教數據集分布不同,而監督學習是基于訓練數據集是獨立同分布的假設,因此監督學習很難泛化到新的場景去;二是不可避免的級聯錯誤累積誤差得不到糾正。
同時也有學者提出一個基于置信度的方法,在給定狀態的置信度學習策略時,此方法基于置信度確定是否需要額外的專家示教。通過能返回置信度的分類器,學徒決定怎么樣從動作集中選擇動作。當置信度低于閾值時,就需要額外的專家示教。通過額外的示教該算法試圖在學徒策略的誘導下學習策略,并將矯正后的動作添加到訓練數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010036162.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電力配件器材拉線棒制作成型輔助機械
- 下一篇:一種足球敏捷性訓練裝置





