[發明專利]用于深度強化學習的認證對抗魯棒性在審
| 申請號: | 202011075251.8 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112700001A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 比約恩·馬爾特·呂特延斯;邁克爾·F·埃弗雷特;喬納森·P·豪;阿爾潘·庫薩利 | 申請(專利權)人: | 福特全球技術公司;麻省理工學院技術許可辦事處 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;B60W50/00;H04W4/44;H04W4/46;H04W4/48 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 陳黎明;李紅蕭 |
| 地址: | 美國密歇根*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 深度 強化 學習 認證 對抗 魯棒性 | ||
本發明提供了“用于深度強化學習的認證對抗魯棒性”。本公開描述了系統和方法,所述系統和方法包括:基于損壞的觀察值和預定擾動參數來計算一個或多個下界狀態?動作值;以及選擇對應于具有最高值的下界狀態?動作值的動作。
技術領域
本公開總體上涉及強化學習。
背景技術
傳感器用于收集環境數據。例如,傳感器可捕獲圖像、聲音、振動和其他物理特性。一旦收集到環境數據,傳感器就可將環境數據發送到其他電子裝置以用于進一步動作。在強化學習代理內,傳感器數據可表示觀察到的狀態。
發明內容
強化學習(RL)是一種形式的目標導向的機器學習。例如,代理可從與其環境的直接交互中學習,而無需依賴明確的監督和/或完整的環境模型。強化學習是一個框架,其根據狀態、動作和獎勵對學習代理與其環境之間的交互進行建模。在每個時間步長處,代理接收狀態,基于策略選擇動作,接收標量獎勵,并且轉變到下一個狀態。所述狀態可基于指示環境數據的一個或多個傳感器輸入。所述代理的目標是使預期的累積獎勵最大化。所述代理可為積極動作接收正標量獎勵,并且為消極動作接收負標量獎勵。因此,所述代理通過嘗試使預期的累積獎勵最大化來“學習”。盡管在本文的車輛的上下文中描述了所述代理,但是應當理解,所述代理可包括任何合適的強化學習代理。例如,所述代理可包括機器人、無人機、計算機應用程序等。
一種系統包括計算機,所述計算機包括處理器和存儲器。所述存儲器包括指令,使得所述處理器被編程為:基于損壞的觀察值和預定擾動參數來計算一個或多個下界狀態-動作值;以及選擇對應于具有最高值的下界狀態-動作值的動作。
在其他特征中,所述處理器進一步被編程為基于所述損壞的觀察值、所述預定參數和訓練后的深度神經網絡的權重來計算所述一個或多個下界狀態-動作值。
在其他特征中,所述訓練后的深度神經網絡包括卷積神經網絡。
在其他特征中,所述預定擾動參數包括矢量。
在其他特征中,所述處理器進一步被編程為基于所述選擇的動作來致動代理。
在其他特征中,所述處理器進一步被編程為基于所述選擇的動作來致動代理。
在其他特征中,所述代理包括自主車輛。
在其他特征中,所述損壞的觀察值包括損壞的傳感器數據。
在其他特征中,所述處理器進一步被編程為從車輛的車輛傳感器接收所述損壞的傳感器數據。
在其他特征中,所述處理器進一步被編程為將所述傳感器數據提供給所述深度神經網絡。
一種系統包括車輛,所述車輛包括車輛系統,所述車輛系統包括計算機,所述計算機包括處理器和存儲器。所述存儲器包括指令,使得所述處理器被編程為:基于損壞的觀察值和預定擾動參數來計算一個或多個下界狀態-動作值;以及選擇對應于具有最高值的下界狀態-動作值的動作。
在其他特征中,所述處理器進一步被編程為基于所述損壞的觀察值、所述預定參數和訓練后的深度神經網絡的權重來計算所述一個或多個下界狀態-動作值。
在其他特征中,所述訓練后的深度神經網絡包括卷積神經網絡。
在其他特征中,所述預定擾動參數包括矢量。
在其他特征中,所述處理器進一步被編程為基于所述選擇的動作來致動所述車輛系統。
在其他特征中,所述車輛包括自主車輛。
在其他特征中,所述損壞的觀察值包括損壞的傳感器數據。
在其他特征中,所述處理器進一步被編程為從所述車輛的車輛傳感器接收所述損壞的傳感器數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司;麻省理工學院技術許可辦事處,未經福特全球技術公司;麻省理工學院技術許可辦事處許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011075251.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發酵乳桿菌TCI275、其組合物及其用途
- 下一篇:雷達校準系統





