[發(fā)明專利]跨平臺(tái)強(qiáng)化學(xué)習(xí)的機(jī)器人訓(xùn)練系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202111207658.6 | 申請(qǐng)日: | 2021-10-18 |
| 公開(kāi)(公告)號(hào): | CN113848728A | 公開(kāi)(公告)日: | 2021-12-28 |
| 發(fā)明(設(shè)計(jì))人: | 宋子豪 | 申請(qǐng)(專利權(quán))人: | 湖南太觀科技有限公司 |
| 主分類號(hào): | G05B13/04 | 分類號(hào): | G05B13/04 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 410000 湖南省長(zhǎng)沙市開(kāi)福區(qū)芙*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 平臺(tái) 強(qiáng)化 學(xué)習(xí) 機(jī)器人 訓(xùn)練 系統(tǒng) | ||
本發(fā)明公開(kāi)了跨平臺(tái)強(qiáng)化學(xué)習(xí)的機(jī)器人訓(xùn)練系統(tǒng),涉及機(jī)器人訓(xùn)練技術(shù)領(lǐng)域,步驟一、智能體通過(guò)Actor進(jìn)行推演和采樣,步驟二、Actor把采集好的樣本上傳到Trainer,Trainer進(jìn)行訓(xùn)練,步驟三、Trainer把訓(xùn)練好的模型下發(fā)給Actor,步驟四、一個(gè)Trainer可以連接多個(gè)Actor,采用異步式并行模式完成推演和訓(xùn)練步驟。通過(guò)Actor和Trainer,可以實(shí)現(xiàn)將訓(xùn)練模型進(jìn)行快速的更新和異步式并行模式完成推演和訓(xùn)練步驟,為兩種環(huán)境提供一致的接口、事件總線、數(shù)據(jù)管理、容錯(cuò)機(jī)制,支持多智能體訓(xùn)練,進(jìn)一步提高訓(xùn)練效率,模擬環(huán)境可以體現(xiàn)真實(shí)環(huán)境的復(fù)雜性,避免出現(xiàn)模型不收斂,機(jī)器人在不同環(huán)境、不同時(shí)間遇到的情況不一樣,導(dǎo)致模型不收斂,有時(shí)會(huì)出現(xiàn)模型崩潰、毀滅性遺忘。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器人訓(xùn)練技術(shù)領(lǐng)域,具體為跨平臺(tái)強(qiáng)化學(xué)習(xí)的機(jī)器人訓(xùn)練系統(tǒng)。
背景技術(shù)
深度強(qiáng)化學(xué)習(xí)可以讓機(jī)器人學(xué)會(huì)新技能,而不用人工編程,深度強(qiáng)化學(xué)習(xí)通常在模擬環(huán)境中的虛擬智能體上訓(xùn)練,然后再由工程師手動(dòng)遷移到真實(shí)環(huán)境中的機(jī)器人實(shí)體上,該遷移過(guò)程存在諸多局限和不確定性,本文提出一種跨平臺(tái)強(qiáng)化學(xué)習(xí)架構(gòu),讓智能體的采樣和訓(xùn)練流程可以在不同的硬件平臺(tái)上平滑遷移。
Sim2Real旨在讓模擬環(huán)境中學(xué)習(xí)的模型能適用于真實(shí)環(huán)境,該過(guò)程主要存在以下問(wèn)題:模型不收斂,機(jī)器人在不同環(huán)境、不同時(shí)間遇到的情況不一樣,導(dǎo)致模型不收斂,有時(shí)會(huì)出現(xiàn)模型崩潰、毀滅性遺忘,環(huán)境復(fù)雜性,模擬環(huán)境難以體現(xiàn)真實(shí)環(huán)境的復(fù)雜性,導(dǎo)致系統(tǒng)在真實(shí)環(huán)境中不穩(wěn)定,本體適應(yīng)性,虛擬智能體運(yùn)行在服務(wù)器或集群計(jì)算架構(gòu)上,以虛擬體(數(shù)字孿生)的形式運(yùn)行,其實(shí)體運(yùn)行在嵌入式或邊緣計(jì)算架構(gòu)上,其實(shí)體跟虛擬體有差別。
發(fā)明內(nèi)容
本發(fā)明提供的發(fā)明目的在于提供跨平臺(tái)強(qiáng)化學(xué)習(xí)的機(jī)器人訓(xùn)練系統(tǒng),解決上述背景技術(shù)中的問(wèn)題。
為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):跨平臺(tái)強(qiáng)化學(xué)習(xí)的機(jī)器人訓(xùn)練系統(tǒng),包括以下步驟:
步驟一、智能體通過(guò)Actor進(jìn)行推演和采樣。
步驟二、Actor把采集好的樣本上傳到Trainer,Trainer進(jìn)行訓(xùn)練。
步驟三、Trainer把訓(xùn)練好的模型下發(fā)給Actor。
步驟四、一個(gè)Trainer可以連接多個(gè)Actor,采用異步式并行模式完成推演和訓(xùn)練步驟。
進(jìn)一步的,根據(jù)步驟一中的操作步驟,所述模擬環(huán)境運(yùn)行在本地、服務(wù)器或者集群上,以共享內(nèi)存或者TCP/UDP方式連接,模擬環(huán)境中的物理仿真引擎可以給機(jī)器人模型的反饋,模擬環(huán)境中的機(jī)器人模型包括外形、傳感器、制動(dòng)器、能源管理等,該模型和參數(shù)來(lái)自機(jī)器人設(shè)計(jì)和測(cè)試過(guò)程。
進(jìn)一步的,根據(jù)步驟一中的操作步驟,Actor通過(guò)該模型與模擬環(huán)境交互,完成推演和采樣過(guò)程,Actor在機(jī)器人本體上運(yùn)行時(shí),通過(guò)ROS和硬件驅(qū)動(dòng)連接至傳感器、制動(dòng)器,傳感器的輸出為ot,制動(dòng)器輸入為at,機(jī)器人執(zhí)行完at,采集到新的觀測(cè)值ot+1,通過(guò)自驅(qū)力或者用戶輸入獲得新的獎(jiǎng)勵(lì)rt+1,每個(gè)樣本為一個(gè)數(shù)組(o,s,a,r)t,o代表智能體對(duì)外部的觀測(cè)值,s代表智能體的內(nèi)部狀態(tài),a代表智能體當(dāng)前的行動(dòng),r代表獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)值,我們以POMDP表示他們之間的關(guān)系:
st~p(st|ot,st-1,at-1)
at~π(at|st)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南太觀科技有限公司,未經(jīng)湖南太觀科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111207658.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





