[發(fā)明專利]一種基于深度強化學習的移動機器人視覺跟隨方法有效
| 申請?zhí)枺?/td> | 201910361528.4 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110084307B | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計)人: | 張云洲;王帥;龐琳卓;劉及惟;王磊 | 申請(專利權(quán))人: | 東北大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G05D1/12 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 陳玲玉;梅洪玉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強化 學習 移動 機器人 視覺 跟隨 方法 | ||
1.一種基于深度強化學習的移動機器人視覺跟隨方法,其特征在于,包括如下步驟:
步驟一:數(shù)據(jù)集的自動化構(gòu)造;
(1)準備一個被跟隨的目標易與背景區(qū)分開的簡單場景;在簡單場景下,從跟隨機器人的視野采集目標人在機器人視野中不同位置的視野圖像;
(2)準備跟隨機器人的應(yīng)用場景作為復(fù)雜場景圖像,利用圖像掩模技術(shù)將目標人從簡單場景的背景中提取出來,進而與復(fù)雜場景相疊加,即得到目標人處于復(fù)雜場景下的圖像,并且直接為合成的復(fù)雜場景圖像賦予相應(yīng)的簡單場景下的動作空間標簽;
步驟二:基于CNN的方向控制模型搭建及訓練;
利用步驟一自動化構(gòu)造的數(shù)據(jù)集對CNN模型進行有監(jiān)督訓練,使得CNN能夠達到通過機器人視野輸入圖像輸出對應(yīng)動作狀態(tài)的效果,從機器人的單目彩色相機采集到的圖像,在輸入給CNN之前,先將其RGB三通道轉(zhuǎn)換為HSV通道,再作為輸入圖像送給CNN,之后網(wǎng)絡(luò)可以輸出對應(yīng)的動作狀態(tài);
其中,CNN結(jié)構(gòu)由8層組成,包括卷積層3層、池化層2層、全連通層2層和輸出層;從前往后,三個卷積層的卷積核參數(shù)設(shè)置分別為:8×8、4×4、2×2;兩個池化層均采用最大池化,大小均為2×2;經(jīng)過第三個卷積之后,將會輸入給兩個全連接層,每一層均有384個節(jié)點,在全連接層之后為輸出層,經(jīng)過輸出層之后即為多維輸出,每一個維度表示對應(yīng)方向的動作,一共包含三個方向的動作:向前、向左、向右;三個卷積層和兩個全連接層之后都會加一個Relu激活函數(shù)用以對輸入層的結(jié)果非線性化;CNN參數(shù)的更新采用交叉熵損失函數(shù),具體表示為:
其中,y′為樣本的標簽數(shù)據(jù),是三維的One-Hot向量,其中為1的維度表示正確的動作;f(x)表示CNN模型對各個動作維度的預(yù)測概率;
步驟三:模型遷移;
將步驟二訓練好的CNN參數(shù)權(quán)重作為初始參數(shù)遷移給DRL模型,使得DRL模型獲得與CNN模型相同的控制水平;DRL模型具體為DQN模型,遷移過程為:去除訓練好的CNN網(wǎng)絡(luò)的Softmax層,將前面各層的權(quán)重參數(shù)直接賦予DQN模型;
步驟四:基于DRL的方向控制模型搭建及訓練;
將步驟三初始參數(shù)遷移后的DRL模型用于機器人端進行使用,并且通過不斷與環(huán)境進行交互,使機器人能夠不斷更新模型,學習到當前所處的環(huán)境。
2.根據(jù)權(quán)利要求1所述的基于深度強化學習的移動機器人視覺跟隨方法,其特征在于,步驟二:從機器人的單目彩色相機采集到的圖像大小為640×480,在輸入給神經(jīng)網(wǎng)絡(luò)之前,先將其RGB三通道轉(zhuǎn)換為HSV通道,并且將640×480大小的圖像調(diào)整成60×80大小,將4個相鄰時刻所采集到的圖像合并在一起作為網(wǎng)絡(luò)的輸入,最終的輸入層包含4×3共12通道,每一個通道的大小都為60×80。
3.根據(jù)權(quán)利要求1所述的基于深度強化學習的移動機器人視覺跟隨方法,其特征在于,步驟四:DQN使用神經(jīng)網(wǎng)絡(luò)近似值函數(shù),即神經(jīng)網(wǎng)絡(luò)的輸入是當前狀態(tài)值s,輸出是預(yù)測的價值量Qθ(s,a),在每一個時間步,環(huán)境會給出一個狀態(tài)值s,智能體根據(jù)值函數(shù)網(wǎng)絡(luò)得到關(guān)于這個s和所有動作的價值量Qθ(s,a),然后利用貪婪算法e-greedy選擇動作,做出決策,環(huán)境接收到此動作a后會給出一個獎勵值r及下一個狀態(tài)s′;這是一個step;根據(jù)r更新值函數(shù)網(wǎng)絡(luò)的參數(shù);DQN采用均方差誤差定義目標函數(shù):
其中,s′,a′是下一時刻的狀態(tài)和動作,γ為超參數(shù),θ為模型參數(shù);
訓練時,參數(shù)的更新的方式為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學,未經(jīng)東北大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910361528.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





