[發明專利]一種機器人人機交互方法有效
| 申請號: | 202110206075.5 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112873211B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 劉華平;陸升陽;張新鈺;袁小虎;趙懷林 | 申請(專利權)人: | 清華大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;G01C21/00;G01S17/86;G01S17/89 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅文群 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器人 人機交互 方法 | ||
1.一種機器人人機交互方法,其特征在于該方法包括:
拍攝環境的RGB圖像與深度圖,利用激光雷達探測障礙物信息,獲取障礙物數組,對獲取數據進行歸一化處理,構建人機交互中的問題編碼網絡將問題進行編碼;構建圖像特征提取網絡,將RGB圖像與深度圖像信息提取成為一個特征矩陣,將激光雷達數據、問題編碼和特征矩陣進行拼接得到特征融合矩陣;采用卷積網絡獲取數據融合矩陣作為周邊環境的數據融合矩陣;訓練一個循環神經網絡作為導航器,將數據融合矩陣作為輸入,輸出為“前,左,右,停止”動作之一,控制機器人運動方向;具體步驟如下:
(1)拍攝環境的RGB圖像與深度圖,稱為環境圖像,環境圖像為一個3*(w*h)圖像,環境圖像中含有3個圖層,每一個圖層的尺寸為(w*h),利用下式,對環境圖像進行歸一化處理:
式中,代表歸一化后環境圖像中像素點的值,xi代表原環境圖像中像素點的值,xmin代表像素點的最小值,xmax代表像素點的最大值;
(2)構建一個卷積神經網絡,具體包括以下步驟:
設定卷積神經網絡的第一層為卷積層,該卷積層的卷積核為5*5的矩陣,通道數為8;卷積神經網絡的第二層為非線性激活層,非線性激活函數為relu函數,將卷積層的輸出作為該層輸入,增加網絡的非線性,卷積神經網絡的的第三層為數據歸一化層,該層的輸入為非線性激活層的輸出;
(3)利用上述步驟(2)的卷積神經網絡,對步驟(1)的環境圖像進行特征提取,得到環境特征融合矩陣L,包括以下步驟:
(3-1)將步驟(1)歸一化處理后的環境圖像輸入到步驟(2)的卷積神經網絡中,卷積神經網絡輸出RGB圖像的特征矩陣M與深度圖的特征矩陣G;
(3-2)將步驟(3-1)的特征矩陣M與特征矩陣G相加,得到融合矩陣K,將融合矩陣K進行矩陣變換,得到環境特征融合矩陣L,L為1*1*128的矩陣;
(4)探測障礙物信息,記為障礙物數組Z,利用下式,對障礙物數組Z進行歸一化處理得到歸一化后的矩陣Zj:
式中,代表歸一化處理后障礙物數組的值,zj代表原障礙物數組的值,zmin代表障礙物數組的最小值,zmax代表障礙物數組的最大值;
對歸一化后的矩陣Zj進行線性變換,得到障礙物特征矩陣N,N為1*1*64的矩陣;
(5)構建一個問題編碼網絡,具體包括以下步驟:
(5-1)設定問題編碼網絡的第一層為第一長短時記憶層,第一長短時記憶層的神經元個數是128個,問題編碼網絡的第二層為長短時記憶層,第二層為長短時記憶層的神經元個數是128個,得到一個問題編碼網絡;
(5-2)將人機交互問題中的單詞進行編號;
(5-3)將步驟(5-2)的進行編號后的人機交互問題中的單詞輸入步驟(5-1)的問題編碼網絡,問題編碼網絡輸出一個問題矩陣,對問題矩陣進行變換,得到問題特征矩陣O,問題特征矩陣O為1*1*64的矩陣;
(6)對步驟(3)的環境特征融合矩陣L、步驟(4)的障礙物特征矩陣N和步驟(5)的問題特征矩陣O,按照通道數進行矩陣拼接,得到特征融合矩陣P,特征融合矩陣P為1*1*256的矩陣;
(7)設計一個卷積網絡,該卷積網絡的卷積核為1*1的矩陣,卷積網絡的通道數為64,將步驟(6)的特征融合矩陣P輸入該卷積網絡,卷積網絡輸出一個數據融合矩陣Q;
(8)建立一個循環神經網絡,該循環神經網絡的第一層為長短期記憶網絡,長短期記憶網絡中的神經元個數為64個,該循環神經網絡的第二層為線性變換層,該循環神經網絡的第三層為softmax分類層,softmax分類層的神經元個數為4個;循環神經網絡最終輸出為“前,左,右,停止”四個動作中的一個;
(9-1)利用步驟(7)數據融合矩陣Q對步驟(8)的循環神經網絡進行訓練,得到一個導航器,即向步驟(8)的循環神經網絡輸入數據融合矩陣Q,循環神經網絡輸出為“前,左,右,停止”四個動作,在循環神經網絡訓練中,利用損失函數,計算損失值Loss:
其中i為動作序號,為第i個輸出動作,將第i個輸出動作與輸入數據融合矩陣Q中的相應動作進行比較,若輸出動作與數據融合矩陣Q中的相應動作相同,則記yi為1,若輸出動作與數據融合矩陣Q中的相應動作不相同,則記yi為0;
(9-2)設定損失值Loss的閾值,損失值Loss的閾值為0.5,采用損失函數計算每一次訓練的損失值,當損失值小于閾值時,完成導航器的訓練;
(10)利用步驟(9-2)的導航器進行導航,導航器的表達式為:
at,ht←LSTM(ht-1,It0,Q,at-1)
其中,t表示機器人走的步數,at表示機器人第t步的移動方向,ht表示第t步循環神經網絡中長短期記憶網絡的隱藏層輸出,at-1表示上個步驟(9-1)的動作輸出,ht-1表示上個步驟長短期記憶網絡的隱藏狀態,Q表示問題的編碼,It0表示第t步時步驟(7)的整個長短期記憶網絡的數據融合輸入,←表示導航器的輸出方式;
向該導航器輸入步驟(5)的問題編碼、步驟(1)的RGB圖像和深度圖像以及步驟(8)的上一時刻長短期記憶層的隱藏狀態,導航器輸出前、左、右或停止導航四個指令中的一個,實現機器人的人機交互。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110206075.5/1.html,轉載請聲明來源鉆瓜專利網。





