[發(fā)明專利]可信賴學(xué)習(xí)型自動駕駛決策方法、系統(tǒng)、存儲介質(zhì)及設(shè)備有效
| 申請?zhí)枺?/td> | 202111246972.5 | 申請日: | 2021-10-26 |
| 公開(公告)號: | CN113879323B | 公開(公告)日: | 2023-03-14 |
| 發(fā)明(設(shè)計(jì))人: | 楊殿閣;曹重;周偉韜;鄧楠山;焦新宇 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | B60W50/00 | 分類號: | B60W50/00;B60W60/00 |
| 代理公司: | 北京紀(jì)凱知識產(chǎn)權(quán)代理有限公司 11245 | 代理人: | 孫楠 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 可信賴 學(xué)習(xí) 自動 駕駛 決策 方法 系統(tǒng) 存儲 介質(zhì) 設(shè)備 | ||
1.一種可信賴學(xué)習(xí)型自動駕駛決策方法,其特征在于,包括:
基于預(yù)先設(shè)定的決策問題構(gòu)建可解釋性決策,由所述可解釋性決策引導(dǎo)所述學(xué)習(xí)型決策訓(xùn)練;
由所述決策問題對學(xué)習(xí)型決策進(jìn)行訓(xùn)練,得到具有高價(jià)值的決策價(jià)值函數(shù)的學(xué)習(xí)型決策;
選取所述學(xué)習(xí)型決策和所述可解釋性決策兩者中價(jià)值高的決策,作為最終可信賴的學(xué)習(xí)型決策動作;
所述決策問題由三要素構(gòu)成;所述三要素為環(huán)境觀測狀態(tài)、自動駕駛動作和瞬時(shí)獎(jiǎng)勵(lì);
所述可解釋性決策的構(gòu)建為:可解釋性決策方法將用于保障所述學(xué)習(xí)型決策的表現(xiàn)下界,要求最終學(xué)習(xí)型決策表現(xiàn)不低于該可解釋性決策;所述可解釋性決策構(gòu)建成如下形式:
ar=πr(s)
其中,表示所有可能的環(huán)境觀測狀態(tài)所構(gòu)成的空間;表示所有可能的決策動作所構(gòu)成的空間;πr表示該可解釋性決策,從狀態(tài)空間到動作空間的映射;ar表示可解釋性決策輸出的動作;s為狀態(tài);
所述可解釋性決策的構(gòu)建方法僅對可解釋性決策的輸入、輸出形式進(jìn)行了約束,要與所述學(xué)習(xí)型決策的決策問題一致;
所述決策問題對學(xué)習(xí)型決策進(jìn)行訓(xùn)練,包括:
設(shè)定決策價(jià)值函數(shù);
估計(jì)所述可解釋性決策的價(jià)值函數(shù);
根據(jù)所述可解釋性決策的價(jià)值函數(shù)和所述設(shè)定決策價(jià)值函數(shù),學(xué)習(xí)得到高價(jià)值的決策價(jià)值函數(shù)。
2.如權(quán)利要求1所述可信賴學(xué)習(xí)型自動駕駛決策方法,其特征在于,所述估計(jì)所述可解釋性決策的價(jià)值函數(shù),包括:通過構(gòu)建數(shù)據(jù)集,由所述數(shù)據(jù)集采用遞推方法得到所述可解釋性決策的價(jià)值函數(shù)。
3.如權(quán)利要求2所述可信賴學(xué)習(xí)型自動駕駛決策方法,其特征在于,所述數(shù)據(jù)集由數(shù)據(jù)元構(gòu)成;所述數(shù)據(jù)元是在不同狀態(tài)下,采用可解釋性駕駛策略,獲得的下一刻狀態(tài);
或,所述數(shù)據(jù)集通過直接使用所述可解釋性決策駕駛車輛,收集車輛駕駛過程中的駕駛數(shù)據(jù)來獲得。
4.如權(quán)利要求1所述可信賴學(xué)習(xí)型自動駕駛決策方法,其特征在于,所述根據(jù)所述可解釋性決策的價(jià)值函數(shù)和所述設(shè)定決策價(jià)值函數(shù),學(xué)習(xí)得到高價(jià)值的決策價(jià)值函數(shù),包括:
當(dāng)自動駕駛汽車遇到一個(gè)沒有遇到的狀態(tài)時(shí),此時(shí)自動駕駛汽車將采用所述可解釋性決策進(jìn)行駕駛,并根據(jù)環(huán)境的反饋初始化學(xué)習(xí)型決策的價(jià)值函數(shù);
當(dāng)自動駕駛汽車遇到一個(gè)曾經(jīng)遇到過狀態(tài)時(shí),則生成新的動作;在獲得下一刻狀態(tài)后,根據(jù)所述新的動作更新所述學(xué)習(xí)型決策的價(jià)值函數(shù)。
5.如權(quán)利要求4所述可信賴學(xué)習(xí)型自動駕駛決策方法,其特征在于,所述新的動作a為:
其中,N(s)表示當(dāng)前狀態(tài)遇到的次數(shù),N(s,a)表示當(dāng)前狀態(tài)采用某一動作的次數(shù),Q(s,a)表示在狀態(tài)s采用動作a的決策價(jià)值函數(shù),δ(s,a,πr)是可解釋性決策誘導(dǎo)值,πr表示可解釋性決策,c為手動調(diào)整的常量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111246972.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
B60W 不同類型或不同功能的車輛子系統(tǒng)的聯(lián)合控制;專門適用于混合動力車輛的控制系統(tǒng);不與某一特定子系統(tǒng)的控制相關(guān)聯(lián)的道路車輛駕駛控制系統(tǒng)
B60W50-00 不與某一特定子系統(tǒng)的控制相關(guān)聯(lián)的道路車輛駕駛控制的控制系統(tǒng)的零部件
B60W50-02 .控制系統(tǒng)故障時(shí)確保安全的,例如,通過診斷、防止或修理故障
B60W50-04 .監(jiān)測控制系統(tǒng)的效能的
B60W50-06 .改善控制系統(tǒng)的動態(tài)響應(yīng),例如,改善調(diào)節(jié)速度或避免振蕩或過沖
B60W50-08 .在駕駛員與控制系統(tǒng)之間的人機(jī)交流
B60W50-10 ..駕駛員請求或命令的譯碼
- 由半可信賴服務(wù)器提供內(nèi)容服務(wù)的方法和裝置
- 可信賴計(jì)算平臺反映操作者在現(xiàn)場操作的實(shí)現(xiàn)方法和裝置
- 保護(hù)處理器體系結(jié)構(gòu)上的接口
- USB嵌入式可信賴私有信息處理裝置及系統(tǒng)
- USB嵌入式可信賴私有信息處理裝置及系統(tǒng)
- 計(jì)算裝置與數(shù)據(jù)處理方法
- 可信賴模塊的功能驗(yàn)證方法
- 一種基于大數(shù)據(jù)的企業(yè)可信賴度評價(jià)方法及系統(tǒng)
- 一種可信賴平臺模塊協(xié)議識別方法與裝置
- 基于評論者可信賴度回歸預(yù)測的商品評論推薦方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





