[發(fā)明專利]一種基于強化學習的仿生機器鼠行為交互方法及仿真系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011122467.5 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112163666A | 公開(公告)日: | 2021-01-01 |
| 發(fā)明(設計)人: | 石青;謝宏釗;賈廣祿;高子航;孫韜;周祺杰 | 申請(專利權(quán))人: | 北京理工大學 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 張夢澤 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學習 仿生 機器 行為 交互 方法 仿真 系統(tǒng) | ||
本發(fā)明公開了一種基于強化學習的仿生機器鼠行為交互方法及仿真系統(tǒng)。通過當前行為交互過程中實驗鼠所處狀態(tài),利用馬爾可夫決策過程理論,對仿生機器鼠動作表現(xiàn)進行決策,解決了仿生機器鼠與實驗鼠行為交互過程中存在的行為模式單一、適應性弱的問題。本發(fā)明能夠適應實驗鼠的隨機行為,無論交互對象的年齡階段、性別、情緒狀態(tài)如何變化,這一方法都能根據(jù)當前狀態(tài)做出合適決策,開展有效行為交互。
技術(shù)領(lǐng)域
本發(fā)明涉及仿生機器鼠行為交互領(lǐng)域,特別是涉及一種基于強化學習的仿生機器鼠行為交互方法及仿真系統(tǒng)。
背景技術(shù)
實驗鼠是被廣泛使用的模式動物之一,對其行為模式的研究受到生物學家的廣泛關(guān)注,但由于生物鼠行為隨機、難以預測,相關(guān)的實驗開展存在困難。利用仿生機器人與生物開展行為交互實驗,揭示生物的行為生成機制和研究仿生機器人的控制策略是智能機器人和生物學領(lǐng)域的熱點之一。仿生機器鼠模仿生物鼠結(jié)構(gòu)設計,能夠引發(fā)生物鼠的特定反應,二者交互成為當前技術(shù)熱點。
當前利用仿生機器鼠行為交互實現(xiàn)方案主要分為示教實驗和社交反應測試兩類,示教實驗中,仿生機器鼠重復表現(xiàn)特定行為,作為對實驗鼠的刺激,實驗鼠進而表現(xiàn)與該刺激相同的行為。社交反應測試中,通過預編程方式控制仿生機器鼠行為,刺激實驗鼠的行為反應。
示教實驗中,為刺激實驗鼠產(chǎn)生模擬仿生機器鼠的行為,需要對其進行重復刺激,因此要求仿生機器鼠不間斷表現(xiàn)單一特定行為。在這一條件下,仿生機器鼠與實驗鼠之間的交互是單一的、非自然的,更無法適應實驗鼠行為表現(xiàn)的隨機性。在社交反應測試中,仿生機器鼠的行為表現(xiàn)由預編程程序確定,無法根據(jù)實驗鼠行為表現(xiàn)適時調(diào)整,無法適應實驗鼠行為漸進適應的特點。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于強化學習的仿生機器鼠行為交互方法及仿真系統(tǒng),通過當前行為交互過程中實驗鼠所處狀態(tài),利用馬爾可夫決策過程理論,對仿生機器鼠動作表現(xiàn)進行決策,解決了仿生機器鼠與實驗鼠行為交互過程中存在的行為模式單一、適應性弱的問題。
為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于強化學習的仿生機器鼠行為交互方法,包括:
隨機初始化二維決策表,所述決策表包括狀態(tài)-動作組合;
根據(jù)交互對象的位置及動作,判定交互對象的當前狀態(tài);
根據(jù)上一時刻狀態(tài)的價值以及當前狀態(tài)的價值計算反饋值;
基于所述反饋值,根據(jù)馬爾可夫決策過程對所述決策表中對應的狀態(tài)-動作組合的值進行更新;
根據(jù)∈-greedy算法從更新后的狀態(tài)-動作組合中選擇當前狀態(tài)對應的動作;
根據(jù)選擇的動作由仿真系統(tǒng)進行模擬實現(xiàn)。
可選地,所述狀態(tài)集合包括:背后、左側(cè)、右側(cè)、遠距、梳理、被梳理、攀爬、匍匐和其他9種狀態(tài);所述動作集合包括:直線前進、直線后退、原地左轉(zhuǎn)、原地右轉(zhuǎn)、直立、嗅探、梳理、被梳理、攀爬和匍匐共10種動作。
可選地,所述反饋值的計算公式如下:
r(s,s')=V(s')-V(s)-0.5
其中,r表示反饋值,s表示上一時刻狀態(tài),s'表示當前狀態(tài),V(s)表示上一時刻狀態(tài)的價值,V(s')表示當前狀態(tài)的價值。
可選地,所述根據(jù)馬爾可夫決策過程對所述決策表中對應的狀態(tài)-動作組合的值進行更新的公式如下:
Q′(s,a)=Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]
其中,Q′(s,a)表示更新后的決策表,Q(s,a)表示更新前的決策表,a表示動作,α和γ均為0~1之間的常數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學,未經(jīng)北京理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011122467.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





