[發(fā)明專利]基于Skinner操作條件反射自動(dòng)機(jī)的機(jī)器人軌跡跟蹤方法在審
| 申請?zhí)枺?/td> | 201410844504.1 | 申請日: | 2014-12-30 |
| 公開(公告)號: | CN104570738A | 公開(公告)日: | 2015-04-29 |
| 發(fā)明(設(shè)計(jì))人: | 阮曉鋼;李笑漪;肖堯;張曉銳;劉冰 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04;G05D1/02 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 skinner 操作 條件反射 自動(dòng)機(jī) 機(jī)器人 軌跡 跟蹤 方法 | ||
1.基于Skinner操作條件反射自動(dòng)機(jī)的機(jī)器人軌跡跟蹤方法,其特征在于包括以下步驟:
步驟1:確定Skinner操作條件反射機(jī)的數(shù)學(xué)模型,SKCOA;
SKCOA自動(dòng)機(jī)是離散的一個(gè)七元組,SKCOA=<S,A,f,δ,P,L,H>,S為離散狀態(tài)組合集合,A為自動(dòng)機(jī)可選擇動(dòng)作操作集合,f為狀態(tài)轉(zhuǎn)移函數(shù),δ是取向函數(shù),P為每一狀態(tài)下選擇操作的概率集合,令初始概率分布為均勻分布,L為自動(dòng)機(jī)的操作條件反射學(xué)習(xí)機(jī)制,H為自動(dòng)機(jī)操作行為熵;
步驟2:確定SKCOA自動(dòng)機(jī)可選擇的操作集合A;
操作集合A={vk,ωj|k=1,2,...,na1,j=1,2,...,na2},vk為機(jī)器人前進(jìn)的速度,ωj為機(jī)器人轉(zhuǎn)過的角速度,na1,na2分別為速度和角速度的操作集大小,na=na1*na2,na為操作集大小;
步驟3:獲得機(jī)器人在t的時(shí)刻的狀態(tài)集合S={ei|i=1,2,...,ns};
機(jī)器人t時(shí)刻在環(huán)境地圖中的坐標(biāo)位置,記作si|t=(xi,yi,θi);xi,yi分別為機(jī)器人t時(shí)刻所在的橫縱坐標(biāo),θi為機(jī)器人與橫軸夾角;期望軌跡坐標(biāo)點(diǎn)為soi|t=(xoi,yoi,θoi);xoi,yoi分別為機(jī)器人期望軌跡在t時(shí)刻的橫縱坐標(biāo),θoi為期望位姿與橫軸夾角;機(jī)器人在t的時(shí)刻的狀態(tài)集合為S1={ei|i=1,2,...,ns}=soi-si=(xoi-xi,yoi-yi,θoi-θi),ns為狀態(tài)集合大小;將坐標(biāo)轉(zhuǎn)換為以機(jī)器人為坐標(biāo)原點(diǎn)的坐標(biāo)系中,S=T·S1,T為旋轉(zhuǎn)矩陣;
步驟4:根據(jù)概率集合,從動(dòng)作集中選擇一組動(dòng)作,即選擇前行的速度vk和角速度ωk;
步驟5:計(jì)算狀態(tài)轉(zhuǎn)移,方法如下:
式中,xn、yn、θn分別代表動(dòng)作選擇后機(jī)器人新的橫縱坐標(biāo)以及機(jī)器人的朝向角度,xo、yo、θo分別代表動(dòng)作選擇前機(jī)器人新的橫縱坐標(biāo)以及機(jī)器人的朝向角度,ts為機(jī)器人傳感器的采樣時(shí)間;
步驟6:計(jì)算能量函數(shù)eng的值;
能量函數(shù)用于表示機(jī)器人當(dāng)前位置與軌跡的距離關(guān)系,記作eng=eng(S)={eng(Si)|i=1,2,...,ns}∈R,距離越近,eng越小,反之,eng越大,方法如下:
步驟7:計(jì)算取向函數(shù)δ值;
取向函數(shù)δ=δ(S,A)={δik|i=1,2,...,ns;k=1,2,...,na},模擬了自然界中生物的取向性,方法如下:
δik=eng(Si)-eng(Si+1)
其中δik表示si∈S執(zhí)行動(dòng)作(vk,ωk)∈A后系統(tǒng)性能的變化;δ<0時(shí),為負(fù)取向,說明系統(tǒng)性能趨向變差;δ=0時(shí),為零取向,說明系統(tǒng)性能趨向不變;δ>0時(shí),為正取向,說明系統(tǒng)性能趨向變好;
步驟8:根據(jù)Skinner操作條件反射原理調(diào)整動(dòng)作集概率分布P;
動(dòng)作集概率分布的規(guī)則為:正強(qiáng)化時(shí),動(dòng)作概率增加;負(fù)強(qiáng)化時(shí),動(dòng)作概率減少;設(shè)t時(shí)刻狀態(tài)sm,選擇操作ak執(zhí)行,通過狀態(tài)轉(zhuǎn)移到sn;
當(dāng)δ>0時(shí),
當(dāng)δ<0時(shí),
式中,η1>0,η2>0;α1(t),α2(t)為學(xué)習(xí)速率函數(shù),0<α1(t)<1,0<α2(t)<1;pmk(t)為t時(shí)刻機(jī)器人在狀態(tài)sm下選擇動(dòng)作ak的概率;pmk'(t)為t時(shí)刻機(jī)器人在狀態(tài)sm下選擇動(dòng)作除ak外的其他操作的概率;
步驟9:計(jì)算t時(shí)刻系統(tǒng)熵;
式中,pik(t)為機(jī)器人在狀態(tài)si下選擇動(dòng)作ak的概率;
步驟10:判斷熵是否趨于最小值Hmin,如果是,標(biāo)志著系統(tǒng)已達(dá)到自組織,機(jī)器人已形成操作條件反射習(xí)得最優(yōu)動(dòng)作,則本次學(xué)習(xí)結(jié)束,轉(zhuǎn)到測試階段;否則,轉(zhuǎn)步驟2;
步驟11:測試階段,載入期望軌跡和速度;
步驟12:在保持概率矩陣P不變,根據(jù)概率從操作集中選擇操作執(zhí)行,按照狀態(tài)轉(zhuǎn)移公式計(jì)算新的狀態(tài),循環(huán)往復(fù);
步驟13:判斷機(jī)器人當(dāng)前位置是否為終點(diǎn),如果是,則結(jié)束,否則,轉(zhuǎn)步驟11,繼續(xù)測試階段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410844504.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 芪參益氣滴丸在制備防治老年癡呆藥物中的應(yīng)用
- 電防御性運(yùn)動(dòng)條件反射儀
- 自治操作條件反射自動(dòng)機(jī)及在實(shí)現(xiàn)智能行為中的應(yīng)用
- 一種條件反射教具
- 一種基于條件反射機(jī)制的智能家電控制系統(tǒng)的應(yīng)用
- 動(dòng)物條件反射實(shí)驗(yàn)用放射性迷宮
- 基于Skinner操作條件反射自動(dòng)機(jī)的機(jī)器人軌跡跟蹤方法
- 一種機(jī)器人指令處理方法及裝置
- 一種仿操作性條件反射的神經(jīng)網(wǎng)絡(luò)非線性控制方法
- 基于多腦區(qū)協(xié)同條件反射模型的機(jī)器人控制方法及系統(tǒng)





