[發(fā)明專利]一種機器人控制方法及設(shè)備有效
| 申請?zhí)枺?/td> | 202010552467.2 | 申請日: | 2020-06-17 |
| 公開(公告)號: | CN111645076B | 公開(公告)日: | 2021-05-11 |
| 發(fā)明(設(shè)計)人: | 王東署;胡宇航;羅勇;辛健斌;王河山;馬天磊;賈建華;張方方;陳書立 | 申請(專利權(quán))人: | 鄭州大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 焦作市科彤知識產(chǎn)權(quán)代理事務所(普通合伙) 41133 | 代理人: | 楊東 |
| 地址: | 450001 河南省鄭*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 機器人 控制 方法 設(shè)備 | ||
本申請的目的是提供一種機器人控制方法及設(shè)備,本申請通過模擬靈長類動物大腦生理機制中的前扣帶回皮層神經(jīng)調(diào)節(jié)機制對所述探索速度進行動態(tài)調(diào)整,根據(jù)所處環(huán)境來實時調(diào)節(jié)探索和利用的程度,從而實現(xiàn)了機器人在利用環(huán)境與探索環(huán)境之間動態(tài)平衡,提高了機器人行為決策過程中的學習收斂速度,有利于得到更優(yōu)的全局解。
技術(shù)領(lǐng)域
本申請涉及計算機領(lǐng)域,尤其涉及一種機器人控制方法及設(shè)備。
背景技術(shù)
現(xiàn)有技術(shù)中,機器人要在未知環(huán)境中學習并適應環(huán)境,強化學習是關(guān)鍵技術(shù)之一。強化學習的優(yōu)勢在于其不需要給定期望的輸出,而是根據(jù)強化信號通過在線交互式訓練使機器人在環(huán)境中運動時獲得最大累計回報,從而獲得較好效果的控制策略。因此強化學習經(jīng)常被用在機器人行為決策的研究中。
目前,強化學習算法面臨的一個重要問題是環(huán)境探索與環(huán)境利用之間的平衡,探索與利用的協(xié)調(diào)狀態(tài)直接影響強化學習的效率。探索行為指的是機器人在學習的過程中更多地對環(huán)境中的所有狀態(tài)空間進行逐一遍歷,通常包含一些犧牲短期利益的舉措,通過搜集足夠多的信息來確保機器人能夠?qū)W習到宏觀上更好的行為策略。但由于機器人行為決策的維度較大,行為集較多,信息復雜等因素,過多的探索會導致強化學習面臨維數(shù)災難和學習收斂速度慢的問題,計算量大增,難以滿足行為決策的實時性要求。利用行為是指機器人在自主學習了一段時間后,自身已經(jīng)形成了某種行為策略,此時,為了使機器人獲得更大程度的獎勵,且加快學習收斂速度,機器人的探索行為逐漸降低,而逐步轉(zhuǎn)化為利用行為,即機器人逐漸不再探索未知的動作策略,而是依據(jù)已經(jīng)學習到的經(jīng)驗來選擇當前信息下的最佳動作策略。但如果利用環(huán)境的時間過早或程度較高,系統(tǒng)很難學習到最優(yōu)的行為策略。因此,合適的探索-利用協(xié)調(diào)平衡機制對強化學習算法的效率至關(guān)重要。
探索利用平衡的算法通常分為2大類:無指導的方法和有指導的方法。目前的動作選擇方法中無指導的方法需要對探索參數(shù)進行精細的調(diào)節(jié),其缺點是沒有考慮每個動作的不確定性預期報酬且探索參數(shù)的取值需要在多次模擬后才能正確確定;有指導的方法的缺點是需要大量復雜計算才能收斂到最優(yōu)解。
目前,機器人強化學習中常用的探索-利用平衡策略是間接選擇策略,這種策略在學習的過程中將忽略環(huán)境中的不確定性,而是選擇用概率來實現(xiàn)探索和利用的平衡,該類策略包括多種常用的方法,如ε-greedy方法、Boltzmann分布和啟發(fā)式動作選擇方法等。其中,ε-greedy策略因?qū)崿F(xiàn)簡單而被廣泛使用,但其參數(shù)ε為固定值,對于動態(tài)的學習過程,其探索與利用問題仍然存在,在一定程度上影響了算法的學習速率和效率。而Boltzmann分布方法涉及到動作選擇概率,將動作的選擇與值函數(shù)聯(lián)系在一起,利用溫度參數(shù)調(diào)整動作的選擇概率。Boltzmann分布方法的缺點是溫度參數(shù)的初始值設(shè)定是不確定的,參數(shù)的設(shè)置對算法的學習速率和效率有一定的影響。總之,這些方法都不能根據(jù)機器人所處的環(huán)境實時調(diào)節(jié)探索或利用的程度,造成適應性不強、收斂速度慢和局部最優(yōu)等缺陷。
因此,在機器人學習的過程中能夠?qū)崿F(xiàn)機器人在利用環(huán)境與探索環(huán)境之間動態(tài)平衡,根據(jù)所處環(huán)境來實時調(diào)節(jié)探索和利用的程度,具有學習收斂速度快,穩(wěn)定后的解全局更優(yōu)等優(yōu)勢的機器人控制方法是本領(lǐng)域技術(shù)人員需要繼續(xù)研究的方向。
發(fā)明內(nèi)容
本申請的一個目的是提供一種機器人控制方法及設(shè)備,以解決現(xiàn)有技術(shù)中如何在機器人學習的過程中調(diào)節(jié)探索和利用的程度,從而提高學習收斂速度,得到更優(yōu)的全局解的問題。
根據(jù)本申請的一個方面,提供了一種機器人控制方法,包括:
獲取所述機器人的當前狀態(tài)和至少兩個待執(zhí)行動作及其對應的權(quán)重,其中,所述當前狀態(tài)包括當前環(huán)境和獎勵信息,并基于所述當前狀態(tài)和至少兩個待執(zhí)行動作及其對應的權(quán)重,確定獎勵預測誤差信號;
基于所述獎勵預測誤差信號,通過前扣帶回皮層神經(jīng)調(diào)節(jié)機制對探索速度進行調(diào)節(jié),得到與所述當前狀態(tài)對應的所述探索速度;
基于所述探索速度、所有所述待執(zhí)行動作及其對應的權(quán)重從所有所述待執(zhí)行動作中確定最優(yōu)待執(zhí)行動作并執(zhí)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州大學,未經(jīng)鄭州大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010552467.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





