[發明專利]利用第一原則和約束進行有效、連續和安全學習的系統和方法在審
| 申請號: | 201980068079.2 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN113015981A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 劉立峰;朱穎璇;張軍;殷曉田;李劍;陶永祥;梁達堯 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G05B13/04 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司 11329 | 代理人: | 鈔朝燕;王君 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 第一 原則 約束 進行 有效 連續 安全 學習 系統 方法 | ||
一種用于控制系統的自學習的計算機實現的方法。該方法包括創建初始知識庫。該方法使用該知識庫學習第一原則。該方法創建從該知識庫導出的初始控制命令。該方法生成用于該控制命令的約束。該方法通過執行具有該約束的該控制命令并觀察反饋,執行約束強化學習以改善該控制命令。該方法基于該反饋來豐富該知識庫。
相關申請的交叉引用
本申請要求于2018年11月16日提交的申請號為62/768,467、發明名稱為“利用第一原則和約束進行有效、連續和安全學習的系統和方法”的美國臨時申請的優先權,其全部內容通過引用結合在本申請中。
技術領域
本公開的實施例涉及機器學習領域,并且具體地,涉及利用第一原則和約束進行有效、連續和安全學習的系統和方法。
背景技術
機器學習是一種計算機程序,其可以在沒有人為干擾的情況下學習并適應新數據。深度學習是機器學習的子集。深度學習是一種人工智能(artificial intelligence,AI)功能,它模仿人腦在處理數據和創建模式用于決策方面的工作。例如,深度學習可以通過歸納解決方案來從新的、尚未被觀察到的狀態(或情境輸入)中推斷出結果。傳統上,深度學習已用于圖像和語音識別。
強化學習(reinforcement learning,RL)是通過反復試驗進行學習的過程,以發現哪些動作可以產生最佳結果。與監督式機器學習基于已知正確答案來訓練模型不同,在強化學習中,研究人員通過讓代理與環境互動來訓練模型。深度強化學習(deepreinforcement learning,DRL)是深度學習和強化學習的組合。DRL是建立在深度神經網絡上的強化學習架構。它使用深度神經網絡代替強化學習中的Q網絡,從而實現深度學習,同時具有強化學習的特征—連續學習中的反復試驗。DRL是AI研究的一個令人興奮的領域,它可能適用于各種問題領域。但是,DRL仍然存在局限性,例如學習中的效率低下和安全性問題,模擬和現實環境中學習結果之間的差異等。
發明內容
本公開描述了利用第一原則和約束進行有效、連續和安全學習的各種實施例。作為示例,在一個實施例中,公開了一種用于控制系統的自學習的方法。該方法包括創建初始知識庫。該方法使用該知識庫學習第一原則。該方法創建從該知識庫導出的初始控制命令。該方法生成用于該控制命令的約束。該方法通過執行具有該約束的該控制命令并觀察反饋,執行約束強化學習以改善該控制命令。該方法基于該反饋來豐富該知識庫。
在具體實施方式中進一步描述了上述方面的附加細節和其他實施例及其優點。
附圖說明
為了更全面地理解本公開,結合附圖和具體實施方式,現參考以下簡要描述,其中相同的附圖標記表示相同的部分。
圖1是示出根據本公開的實施例的用于車輛學習如何遵循車道的方法的示意圖。
圖2是示出根據本公開的實施例的用于有效、連續和安全的基于第一原則的約束自學習的過程的流程圖。
圖3是示出根據本公開的實施例的運動學的圖,該運動學可用于使用知識庫來估計車輛的結構參數。
圖4是示出根據本公開的實施例的分段線性擬合方法的圖。
圖5是示出根據本公開的實施例的用于創建初始命令的過程的流程圖。
圖6是示出根據本公開的實施例的用于生成約束的過程的流程圖。
圖7是示出根據本公開的實施例的用于執行約束強化學習的過程的流程圖。
圖8是其中可以實現說明性實施例的各方面的示例數據處理系統的框圖。
所示出的附圖僅是示例性的,并且無意于主張或暗示對可以實現不同實施例的環境、架構、設計或過程構成任何限制。在圖示的圖中使用虛線指示任何可選的組件或步驟。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980068079.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有快速連接和斷開的模具
- 下一篇:一種檢測方法、檢測裝置以及存儲介質





