[發明專利]一種結合知識轉移的強化學習方法及其應用于無人車自主技能的學習方法有效
| 申請號: | 201910017601.6 | 申請日: | 2019-01-09 |
| 公開(公告)號: | CN109740741B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 丁子凡;丁德銳;王永雄;魏國亮;鄂貴 | 申請(專利權)人: | 上海理工大學 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06N3/096;G06N3/042;G06N3/048;G06N3/084;G06N5/04;B60W40/00 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 陸惠中;王永偉 |
| 地址: | 200093 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 知識 轉移 強化 學習方法 及其 應用于 無人 自主 技能 | ||
本發明公開了一種結合知識轉移的強化學習方法,步驟如下:S1、設計BP神經網絡自主任務間映射關系;S2、對源任務學習經驗進行案例存儲,并構建線性感知器來學習源域和目標域之間的動作映射關系;S3、運用基于案例推理機理;S4、進行相似度計算與案例檢索,并運用所學到的案例庫中的經驗作為啟發式來加速相關但不同任務的學習;及其應用于無人車自主技能的學習方法;本發明結合強化學習與遷移學習的優勢,可實現機器人從簡單領域或源域獲得的經驗通過遷移加速應用到復雜領域或目標域中;學習速度快,可避免維數災難;顯著的提高了無人車自主技能學習的速度和效率。
技術領域
本發明是涉及一種結合知識轉移的強化學習方法及其應用于無人車自主技能的學習方法,屬于人工智能技術領域。
背景技術
隨著人工智能時代來襲,大數據、云計算以及物聯網的快速發展,社會變得越來越智能化,而研究更加智能的機器人成為了世界各個國家主要的戰略發展方向。美國提出的再工業戰略,日本提出的機器人新戰略以及德國的工業4.0,還有我國提出的互聯網+戰略,這都體現了人工智能已經成為各國發展戰略中的必要一環。現如今,無人工廠、語音識別、計算機視覺、無人駕駛等諸多領域的發展,大量的解決了人們的單調、重復的體力勞動,提高了生產質量。同時,也讓人們生活充滿著更加豐富的生活體驗。
現在電腦會玩游戲早已不奇怪,特別是一些策略或棋類游戲,甚至人早己不是電腦的對手。但如果事先不告訴電腦該怎么玩,而只讓電腦通過自己觀看顯示器的顯示控制器如何操作,然后讓它盡可能的去獲得高分,此時大部分傳統的人工智能就一籌莫展了。而強化學習便是一種人工智能獲得該技能的非常有前途的方法,其中Agent通過與環境交互學習最優策略。其在人工智能領域成功運用的經典案例有:例如2013年Deepmind團隊向人們首次展現他們那個Agent靠觀察游戲視頻,通過強化學習不斷試錯學習最后擊敗好多人類專業玩家的游戲高手。在2016年的人機大戰,Google的AlphaGo大戰李世石,并且以4:1成績取得勝利等等。
人類能夠通過不斷地探索環境了解環境的變化以此獲得對環境的認知,主要是因為人類能夠在環境中不斷的學習積累經驗,總結規律,以增長知識和才能,從而使自己能夠做出更好的行為決策。強化學習作為一種目的使計算機具有學習的能力,能夠模擬或實現人類生活中的學一些活動的學習方法,逐漸成為人工智能的一個重要的研究領域。強化學習的研究和發展對人工智能的研究起著相當重要的作用。強化學習與人類學習方法相比有很多優點,學習速度和人相比更加快速、只要一個Agent學會,其它可直接通過復制它的程序實現該功能,而人類則需要經過漫長的后天學習才能達到同樣效果。強化學習不會因為人生命終結而終止,對知識的積累能夠達到一個非常高的高度。強化學習算法作為一種重要的機器學習方法,Agent能夠通過不斷與環境的交互來不斷地完善自己對環境的認知能力,而不需要各種指導信息,且可以和各種計算方法相結合,如遺傳算法、神經網絡、案例推理、遷移學習。因此在求解復雜問題中強化學習算法有著廣泛的應用前景。
而對于遷移學習,它是通過重用先前任務中積累的經驗以更好地學習新穎但相關的目標任務,并且可以被描述為通過利用相關且研究良好的問題領域中有價值的知識來增強目標領域中的問題解決的方法。例如,1)在學習演奏小提琴時獲得的知識可用于加速學習演奏大提琴的過程,使大提琴的學習過程變得更加容易。2)飛行員在學飛機之前都是通過模擬飛行駕駛來學習,最終將學習到的經驗用于真實的飛機駕駛。
另外,對于遷移學習,給出的兩個主要定義,一是域,二是任務。域即為數據集,在遷移學習中分為源域和目標域,源域可以理解為之前例子中有足夠訓練數據的數據集,而目標域則是我們感興趣的但可能缺乏足夠訓練數據的數據集。任務則是分為源任務和目標任務。遷移方法的各不相同主要是因為域和任務之間的差異。當源域和目標域一樣,源任務和目標任務一樣時,是傳統的機器學習;當源域和目標域不同但任務相同,被稱為轉換遷移學習;當源域和目標域相同但任務不同時,被稱為引導遷移學習;當域和任務都不相同時,被稱為無監督遷移學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理工大學,未經上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910017601.6/2.html,轉載請聲明來源鉆瓜專利網。





