[發明專利]基于Skinner操作條件反射自動機的機器人軌跡跟蹤方法在審

申請號：	201410844504.1	申請日：	2014-12-30
公開（公告）號：	CN104570738A	公開（公告）日：	2015-04-29
發明（設計）人：	阮曉鋼;李笑漪;肖堯;張曉銳;劉冰	申請（專利權）人：	北京工業大學
主分類號：	G05B13/04	分類號：	G05B13/04;G05D1/02
代理公司：	北京思海天達知識產權代理有限公司 11203	代理人：	張慧
地址：	100124 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 skinner 操作條件反射自動機機器人軌跡跟蹤方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及移動機器人軌跡跟蹤領域，具體涉及一種基于Skinner(斯金納)操作條件反射自動機的機器人軌跡跟蹤方法。

背景技術

隨著自主移動機器人技術的發展，自主移動機器人的應用領域越來越廣泛。它可以取代人類到達許多人類無法到達或有危險的環境，如火災、地震搜救機器人；還可以代替人類做一些服務類工作，如博物館導游等。移動機器人的軌跡跟蹤運動控制不但可直接用于跟蹤目標、機器人編隊等領域，而且，循跡追線是對環境信息的一種簡化，有利于開發出更有效的算法應用于復雜環境下的自主移動機器人上。

經典控制方法和現代控制方法是常用的移動機器人軌跡跟蹤控制方法，雖然應用地比較成熟，但其不能自主調整參數，對于同一算法運用在不同機器人、不同環境中需要人工調整參數。本發明所采用的Skinner操作條件反射自動機的軌跡跟蹤方法來源于1938年美國著名心理學家斯金納(B.F.Skinner)在其著作《The?Behavior?of?Organisms:an?experimental?analysis》中提出的操作條件反射(Operant?Conditioning)的理論。通過刺激產生反應，反應影響刺激出現的概率，是斯金納操作條件反射理論的核心。它體現了人或動物自學習能力，反映了智能體對環境的自適應性。如果能將斯金納提出的操作條件反射原理應用于機器人軌跡跟蹤方面，將會提高軌跡跟蹤的智能化程度。

發明內容

本發明提出一種基于Skinner操作條件反射自動機的軌跡跟蹤方法，對每個狀態對應的操作賦予概率權值，權值的變化隨抽樣結果的反饋進行更新，從而使其抽樣概率發生變化。本發明使機器人能夠在沒有導師信號的情況下，依靠環境對機器人的獎勵與懲罰，建立操作條件反射，使機器人自主完成軌跡跟蹤的學習。

基于Skinner操作條件反射自動機的機器人軌跡跟蹤方法，其特征在于包括以下步驟：

步驟1：確定Skinner操作條件反射機的數學模型，SKCOA；

SKCOA自動機是離散的一個七元組，SKCOA＝＜S,A,f,δ,P,L,H＞，S為離散狀態組合集合，A為自動機可選擇動作操作集合，f為狀態轉移函數，δ是取向函數，P為每一狀態下選擇操作的概率集合，令初始概率分布為均勻分布，L為自動機的操作條件反射學習機制，H為自動機操作行為熵；

步驟2：確定SKCOA自動機可選擇的操作集合A；

操作集合A＝{v_k,ω_j|k＝1,2,...,n_a1,j＝1,2,...,n_a2},v_k為機器人前進的速度，ω_j為機器人轉過的角速度，n_a1,n_a2分別為速度和角速度的操作集大小，n_a＝n_a1*n_a2，n_a為操作集大小；

步驟3：獲得機器人在t的時刻的狀態集合S＝{e_i|i＝1,2,...,n_s}；

機器人t時刻在環境地圖中的坐標位置，記作s_i|t＝(x_i,y_i,θ_i)；x_i,y_i分別為機器人t時刻所在的橫縱坐標，θ_i為機器人與橫軸夾角；期望軌跡坐標點為s_oi|t＝(x_oi,y_oi,θ_oi)，x_oi,y_oi分別為機器人期望軌跡在t時刻的橫縱坐標，θ_oi為期望位姿與橫軸夾角；機器人在t的時刻的狀態集合為S₁＝{e_i|i＝1,2,...,n_s}＝s_oi-s_i＝(x_oi-x_i,y_oi-y_i,θ_oi-θ_i)，n_s為狀態集合大小；將坐標轉換為以機器人為坐標原點的坐標系中，S＝T·S₁，T為旋轉矩陣；