[發明專利]可信賴學習型自動駕駛決策方法、系統、存儲介質及設備有效
| 申請號: | 202111246972.5 | 申請日: | 2021-10-26 |
| 公開(公告)號: | CN113879323B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 楊殿閣;曹重;周偉韜;鄧楠山;焦新宇 | 申請(專利權)人: | 清華大學 |
| 主分類號: | B60W50/00 | 分類號: | B60W50/00;B60W60/00 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 孫楠 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 可信賴 學習 自動 駕駛 決策 方法 系統 存儲 介質 設備 | ||
本發明涉及一種可信賴學習型自動駕駛決策方法、系統、存儲介質及設備,其包括:基于預先設定的決策問題構建可解釋性決策,由所述可解釋性決策引導所述學習型決策訓練;由所述決策問題對學習型決策進行訓練,得到具有高價值的決策價值函數的學習型決策;選取所述學習型決策和所述可解釋性決策兩者中價值高的決策,作為最終可信賴的學習型決策動作。本發明能實現對自動駕駛汽車學習型決策的可信賴度保障,以保證自動駕駛汽車的高可信賴性。本發明可以廣泛在自動駕駛技術領域中應用。
技術領域
本發明涉及自動駕駛汽車決策技術領域,特別是關于一種基于強化學習方法且具有可信賴駕駛表現的學習型自動駕駛決策方法、系統、存儲介質及設備。
背景技術
自動駕駛汽車自主決策是自動駕駛汽車系統中的重要組成部分,學習型自動駕駛決策方法有望能夠通過自主學習獲得超越人類的駕駛能力。其問題在于,學習型方法具有黑盒決策屬性,其決策表現難以預估,這與自動駕駛汽車高可靠性需求相矛盾。因此構建可信賴的學習型自動駕駛決策方法對提升自動駕駛汽車的智能化水平至關重要。
現階段,對于學習型自動駕駛汽車可信賴性的保障方法主要通過:增加安全約束、決策訓練誘導、危險場景探索三類方法。增加安全約束的方法的主要思路是分析學習型決策輸出軌跡的安全性,當發現可能存在危險時及時調整。該思路的問題在于在復雜場景中,利用人為設計的規則來保證絕對安全仍十分困難。決策訓練誘導與危險場景探索兩種方法都是在決策訓練過程中調整訓練方向或增加特定數據,以提升學習型決策的安全性。區別在于,決策訓練誘導的方法是避免學習型決策在危險場景中進行探索,盡可能在安全的場景中學習,以期獲得的駕駛策略均能夠處于較安全的場景;而危險場景探索的方法則相反,通過讓學習型決策反復在危險場景中進行學習,獲得處理危險場景的能力。然而這兩種方法均單純依賴學習型決策本身的學習能力,并未考慮其最終輸出結果的可信賴性,因此仍難以實現可信賴的學習型自動駕駛決策方法。
發明內容
針對上述問題,本發明的目的是提供一種可信賴學習型自動駕駛決策方法、系統、存儲介質及設備,其能實現對自動駕駛汽車學習型決策的可信賴度保障,以保證自動駕駛汽車的高可信賴性。
為實現上述目的,一方面,本發明采取的技術方案為:一種可信賴學習型自動駕駛決策方法,其包括:基于預先設定的決策問題構建可解釋性決策,由所述可解釋性決策引導所述學習型決策訓練;由所述決策問題對學習型決策進行訓練,得到具有高價值的決策價值函數的學習型決策;選取所述學習型決策和所述可解釋性決策兩者中價值高的決策,作為最終可信賴的學習型決策動作。
進一步,所述決策問題由三要素構成;所述三要素為環境觀測狀態、自動駕駛動作和瞬時獎勵。
進一步,所述由所述決策問題對學習型決策進行訓練,包括:
設定決策價值函數;
估計所述可解釋性決策的價值函數;
根據所述可解釋性決策的價值函數和所述設定決策價值函數,學習得到高價值的決策價值函數。
進一步,所述估計所述可解釋性決策的價值函數,包括:通過構建數據集,由所述數據集采用遞推方法得到所述可解釋性決策的價值函數。
進一步,所述數據集由數據元構成;所述數據元是在不同狀態下,采用可解釋性駕駛策略,獲得的下一刻狀態;
或,所述數據集通過直接使用所述可解釋性決策駕駛車輛,收集車輛駕駛過程中的駕駛數據來獲得。
進一步,所述根據所述可解釋性決策的價值函數和所述設定決策價值函數,學習得到高價值的決策價值函數,包括:
當自動駕駛汽車遇到一個沒有遇到的狀態時,此時自動駕駛汽車將采用所述可解釋性決策進行駕駛,并根據環境的反饋初始化學習型決策的價值函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111246972.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:集成電路晶圓測試裝置及方法
- 下一篇:一種用于天花板施工的打孔深度調節裝置





