[發明專利]用于深度強化學習的認證對抗魯棒性在審
| 申請號: | 202011075251.8 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112700001A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 比約恩·馬爾特·呂特延斯;邁克爾·F·埃弗雷特;喬納森·P·豪;阿爾潘·庫薩利 | 申請(專利權)人: | 福特全球技術公司;麻省理工學院技術許可辦事處 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;B60W50/00;H04W4/44;H04W4/46;H04W4/48 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 陳黎明;李紅蕭 |
| 地址: | 美國密歇根*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 深度 強化 學習 認證 對抗 魯棒性 | ||
1.一種包括計算機的系統,所述計算機包括處理器和存儲器,所述存儲器包括指令,使得所述處理器被編程為:
基于損壞的觀察值和預定擾動參數來計算一個或多個下界狀態-動作值;以及
選擇對應于具有最高值的下界狀態-動作值的動作。
2.如權利要求1所述的系統,其中所述處理器進一步被編程為:
基于所述損壞的觀察值、所述預定參數和訓練后的深度神經網絡的權重來計算所述一個或多個下界狀態-動作值。
3.如權利要求2所述的系統,其中所述訓練后的深度神經網絡包括卷積神經網絡。
4.如權利要求1所述的系統,其中所述預定擾動參數包括矢量。
5.如權利要求1所述的系統,其中所述處理器進一步被編程為:
基于所述選擇的動作來致動代理。
6.如權利要求4所述的系統,其中所述代理包括自主車輛。
7.如權利要求1所述的系統,其中所述損壞的觀察值包括損壞的傳感器數據。
8.如權利要求7所述的系統,其中所述處理器進一步被編程為:
從車輛的車輛傳感器接收所述損壞的傳感器數據。
9.一種系統,其包括:
車輛,所述車輛包括車輛系統,所述車輛系統包括計算機,所述計算機包括處理器和存儲器,所述存儲器包括指令,使得所述處理器被編程為:
基于損壞的觀察值和預定擾動參數來計算一個或多個下界狀態-動作值;以及
選擇對應于具有最高值的下界狀態-動作值的動作。
10.如權利要求9所述的系統,其中所述處理器進一步被編程為:
基于所述損壞的觀察值、所述預定參數和訓練后的深度神經網絡的權重來計算所述一個或多個下界狀態-動作值。
11.如權利要求10所述的系統,其中所述訓練后的深度神經網絡包括卷積神經網絡。
12.如權利要求9所述的系統,其中所述預定擾動參數包括矢量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司;麻省理工學院技術許可辦事處,未經福特全球技術公司;麻省理工學院技術許可辦事處許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011075251.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發酵乳桿菌TCI275、其組合物及其用途
- 下一篇:雷達校準系統





