[發明專利]一種基于深度強化學習的黃桃挖核機器人行為控制方法有效
| 申請號: | 201711102908.3 | 申請日: | 2017-11-10 |
| 公開(公告)號: | CN107944476B | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 葛宏偉;林嬌嬌;孫亮;趙明德 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06F17/50;B25J9/16 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 黃桃挖核 機器人 行為 控制 方法 | ||
1.一種基于深度強化學習的黃桃挖核機器人行為控制方法,步驟如下:
(1)特征提取
首先利用深度學習方法進行特征提取,建立訓練集和測試集;其中,使用10000張黃桃剖面圖片作為訓練集,分為360個類別,每個類別相差1°轉角,測試集中包含500張桃核圖片;訓練集和測試集的圖片均具有標簽;使用具有5層的卷積神經網絡對訓練集的核桃狀態進行特征提取;
(2)構建桃核圖像的分類器
采用softmax分類器對黃桃剖面圖片進行分類,由于黃桃剖面圖片分為360個類,因此分類的輸出為360維的向量;
首先確定分類器基本的決策規則,然后確定用來劃分類別的閾值;用已知的黃桃剖面圖片來訓練分類器,已知的訓練集是由已經被標記過的對象組成,提取這些對象的特征,然后利用分類器的決策面把特征向量劃分成不同的區域,最終獲得輸入桃核圖像的類別;
具體地,把標準的人工挖核的桃核核尖的指向作為標準值,把攝像機實際獲取的圖像的桃核核尖指向偏離標準值的角度每一度分為1個類,有360個類,即類別數k=360;softmax分類器函數hθ(x)形式如公式(1)所示:
其中,θ1,θ2,...,θk是模型的參數,x(i)是第i個輸入樣本,y(i)是第i個輸入樣本對應的類別,這一項是對概率分布進行歸一化,使得所有的概率之和為1;
(3)建立強化學習的動作集
搭建的黃桃挖核機器人為6軸機器人,由6個伺服電機協同工作,完成黃桃的挖核工作,6個伺服電機的布置位置分別為:旋轉底盤布置1個伺服電機、摩擦輪機構布置2個伺服電機、刀具機構布置2個伺服電機、下料機構布置1個伺服電機;將伺服電機旋轉一周視為360個動作,即每一整數角度都為一個動作,6個伺服電機共有360*6=2160個動作,形成動作集;
(4)建立強化學習的策略函數和值函數,獲得最優的挖核行為控制策略
將特征提取步驟中,由卷積神經網絡獲得的狀態信息作為強化學習的輸入;由策略函數根據狀態信息,執行相應的動作,然后獲取回報,接著根據新的狀態繼續執行新的動作,直至結束;由于共6個伺服電機,執行過程分6步,由6個伺服電機分別執行,立即回報由距離目標位置的角度組成,包括兩個部分:一個是旋轉底盤距離目標位置的角度,一個是桃子托盤距離目標位置的角度;每一個的角度距離目標位置越近,立即回報越高;因此,立即回報由這兩個角度所得的回報兩部分組成,設計成如式(2)所示:
其中:T為常量,ψ1為旋轉底盤所要到達的目標位置角度,為旋轉底盤位置的當前角度,ψ2為桃子托盤所要達到的目標位置,為桃子托盤的當前位置,st是當前時刻的狀態,at是在當前狀態下選擇的動作,r是在狀態st下選擇動作at所能獲得的立即回報;
策略函數π(·)根據當前狀態,從動作集中選擇合適的動作,表示為at=π(st);即實現從桃子狀態到電機轉動角度的映射;桃子狀態就是黃桃剖面圖片,動作就是電機要轉動的角度,通過強化學習訓練出一個從黃桃剖面到電機轉動角度的表,通過查表的方式完成策略函數,最終得到最優的黃桃挖核行為控制策略;
(5)基于行為控制策略的機器人動作協同過程
首先將黃桃放置在桃子托盤上,機器人拍照獲取桃子圖像,經過深度學習得到桃子圖像狀態,然后運行底部托盤電機,使其運動到下一個工位;下一個工位為調整裝置,包括兩個動作:一個是伸縮機械手臂,將調整裝置與桃子托盤接觸;另一個是摩擦輪,通過摩擦輪調整桃子托盤,使得桃子托盤運動,從而改變桃子狀態;接著底部托盤繼續運動,使其運動到下一個工位,此部分也包括兩個動作:升降平臺和挖核機構;升降平臺的作用是移動挖核機構,挖核機構的作用是夾持刀具去掉桃核,去掉核之后,底部托盤繼續運動,到達下一個工位,由下料機構將桃子取下;以上動作的執行以及執行順序不是由人工設計,而是由強化學習算法自主學習獲得;另外以上動作中,每一個動作執行后都需要攝像頭獲取圖像,從而得到桃子狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711102908.3/1.html,轉載請聲明來源鉆瓜專利網。





