[發明專利]一種面向開放場景的多機器人自主協同搜救方法有效
| 申請號: | 201910883109.7 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110587606B | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 劉惠;丁博;王懷民;賈宏達;史佩昌;張捷;駱杰;懷智博;鞏旭東;耿銘陽 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 陳暉 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 開放 場景 機器人 自主 協同 搜救 方法 | ||
本發明公開了一種面向開放場景的多機器人自主協同搜救方法,目的是快速構建多機器人在新任務場景下的自主協同策略,實現在開放場景中的多機器人自主協同搜救。技術方案是在多機器人系統在仿真搜救環境中應對各種可能出現的狀況,形成基本多機器人協同搜救策略,使得多機器人系統面對無法預知的實際搜救場景時,能夠僅使用少量時間進行策略優化,便可在開放場景下有效完成多機器人自主協同完成搜救任務。采用本發明能夠基于仿真搜救環境中形成的預訓練策略,快速形成對真實搜救場景的協同搜救策略,有效應對面對新場景制定策略的時間消耗問題。且本發明構建的搜救策略具有泛化性,能夠適用于不同的搜救場景。
技術領域
本發明涉及在地震災區等無法提前預知的開放場景中,如何讓分布式多機器人自主協同完成目標搜救任務。尤其涉及多機器人在面對從未見過的、無法提前預知的災后搜救任務場景時,實現自主形成協同策略以完成路徑規劃和目標追蹤等任務的方法。
背景技術
目前常見的多機器人協同任務包括協同搜索、協同搬運、協同偵察等,相比于單機器人,多機器人能夠處理合作型任務,具有更加靈活、高效、可靠的優點;并且能夠實現群體智能涌現,達到“1+12”的效果。目前,多機器人自主協同已經被廣泛用于災后搜救等實際應用場景,極大地提升了搜救效率,同時降低了人力成本。但是目前的多機器人自主協同完成任務的策略(不論是人為設計協同策略還是基于機器學習方法),通常需要提前設計或訓練,并且得到的策略只能針對單一任務進行測試并投入使用。
但是現實環境并非是靜態封閉的,多機器人執行任務時常常面對的是開放場景,需要應對任務過程中某機器人因故退出、障礙物突然出現等突發情況,因此開放場景會給多機器人完成任務帶來更多挑戰。本發明中所考慮的一類典型的開放場景是,多機器人在之前從未見過并無法提前預知未來所要執行任務的具體場景。例如,地震之后的災區地形會如何變化、各種障礙的出現數量和所在位置、屆時能投入多少機器人參與救援等等,都只能等到地震發生之后才能獲知。目前通常的做法是現場制定救援策略,但弊端在于:現場制定救援策略不可避免地要先消耗大量時間進行環境探索和商討方案,導致不能快速投入救援,浪費災后搜救的“黃金時間”。針對這一弊端,本發明實現了多機器人在從未見過的災后搜救等任務場景中能夠經過短暫“實習”快速投入救援中。
目前在機器人領域,基于深度學習的圖像識別和深度強化學習的行為控制來實現的多機器人自主協同技術也已日漸成熟并開始在實際中實現應用。此類基于“數據驅動”的方法,能夠讓機器人實現對任務的自主學習,不依賴于人為設計任務策略。強化學習方法能夠有效考慮機器人實際空間中的高維、連續狀態空間、連續行為空間等實際特點,避免類似于在有監督學習中需要設置標簽等難題,讓機器人在不斷探索和試錯過程中,持續收集對任務在某個狀態執行某個行為能獲得怎樣的收益而形成的經驗,逐漸自主形成對環境的認知和掌握協同完成任務的策略;同時,深度學習方法的引入能夠避免維持的狀態空間指數爆炸的問題。因而通過融合深度學習方法和強化學習方法,深度強化學習方法在機器人自主協同應用中有著較好的表現。
然而相比于人為特征設計的方法,傳統深度學習卻具有數據依賴量大、訓練時間長等長期存在的問題,除此之外,深度學習和融合深度學習的深度強化學習方法的另一個固有局限是訓練的模型具有較高的任務相關性,也就是說,當任務場景發生變化的時候,之前訓練的模型可能會出現不適合甚至失效的問題。這就導致了之前提到的多機器人掌握的某種策略只能用于單個任務的問題,比如多機器人在地震災區有落石的障礙干擾的場景下學習到協同完成任務策略,但是當實際投入到地震場景時,卻突然發現環境中有未預料到的陷阱等障礙,已有的多機器人行為策略便無法適應當前的環境。
除了外部環境中各類障礙的動態變化以外,機器人數目和角色也可能會發生變化。此外,在探索如何完成任務的過程中,其他機器人的行為也會對某機器人的觀測和獎勵獲得產生影響,這種影響是相互作用持續存在的。以上問題意味著,多機器人系統的復雜度遠遠超過單機器人系統復雜度的和,并且真實環境中的復雜度會更高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910883109.7/2.html,轉載請聲明來源鉆瓜專利網。





