[發(fā)明專利]車輛自動駕駛控制策略模型生成方法、裝置、設備及介質(zhì)在審
| 申請?zhí)枺?/td> | 201810163708.7 | 申請日: | 2018-02-27 |
| 公開(公告)號: | CN110196587A | 公開(公告)日: | 2019-09-03 |
| 發(fā)明(設計)人: | 李慧云;劉艷琳 | 申請(專利權(quán))人: | 中國科學院深圳先進技術(shù)研究院 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 深圳青年人專利商標代理有限公司 44350 | 代理人: | 傅俏梅 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 控制策略模型 自動駕駛 回報 駕駛狀態(tài)信息 試驗車輛 訓練樣本 試驗 計算機技術(shù)領(lǐng)域 關(guān)聯(lián) 貝葉斯網(wǎng)絡 動作集合 計算開銷 模型訓練 學習算法 有效地 采集 發(fā)送 篩選 獎勵 | ||
1.一種車輛自動駕駛控制策略模型生成方法,其特征在于,所述方法包括下述步驟:
采集當前試驗時刻試驗車輛的駕駛狀態(tài)信息,根據(jù)預先構(gòu)建的貝葉斯網(wǎng)絡,在預設的車輛動作集合中篩選出所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作;
根據(jù)預先構(gòu)建的獎勵回報函數(shù),在所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作中確定所述駕駛狀態(tài)信息對應的最大回報值動作;
向所述試驗車輛發(fā)送所述最大回報值動作,并將所述駕駛狀態(tài)信息、所述最大回報值動作以及所述最大回報值動作的回報值組合成訓練樣本;
判斷所述試驗車輛的試驗是否結(jié)束,是則根據(jù)不同試驗時刻的所述訓練樣本和預設的深度學習算法,對用于車輛自動駕駛的控制策略模型進行訓練,以得到訓練好的、用于車輛自動駕駛的控制策略模型,否則跳轉(zhuǎn)至采集當前試驗時刻試驗車輛的駕駛狀態(tài)信息的步驟。
2.如權(quán)利要求1所述的方法,其特征在于,采集當前試驗時刻試驗車輛的駕駛狀態(tài)信息的步驟之前,所述方法還包括:
對預先收集的車輛駕駛經(jīng)驗數(shù)據(jù)中駕駛狀態(tài)信息下的車輛動作進行概率主觀估計,生成所述貝葉斯網(wǎng)絡。
3.如權(quán)利要求1所述的方法,其特征在于,在預設的車輛動作集合中篩選出所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作的步驟,包括:
通過所述貝葉斯網(wǎng)絡確定在所述駕駛狀態(tài)信息下所述車輛動作集合中不同車輛動作的出現(xiàn)概率;
將所述出現(xiàn)概率超過預設概率閾值的車輛動作設置為所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作。
4.如權(quán)利要求1所述的方法,其特征在于,在所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作中確定所述駕駛狀態(tài)信息對應的最大回報值動作的步驟,包括:
通過所述獎勵回報函數(shù),計算在所述駕駛狀態(tài)信息下執(zhí)行所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作所獲得的回報值;
將所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作中獲得回報值最大的車輛動作設置為所述駕駛狀態(tài)信息對應的最大回報值動作。
5.如權(quán)利要求1所述的方法,其特征在于,對用于車輛自動駕駛的控制策略模型進行訓練的步驟,包括:
計算不同試驗時刻的所述訓練樣本所對應的累計回報值;
根據(jù)所述深度學習算法、所述訓練樣本和所述訓練樣本對應的累計回報值,對所述控制策略模型進行有監(jiān)督訓練。
6.一種車輛自動駕駛控制策略模型生成裝置,其特征在于,所述裝置包括:
采集篩選單元,用于采集當前試驗時刻試驗車輛的駕駛狀態(tài)信息,根據(jù)預先構(gòu)建的貝葉斯網(wǎng)絡,在預設的車輛動作集合中篩選出所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作;
動作確定單元,用于根據(jù)預先構(gòu)建的獎勵回報函數(shù),在所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作中確定所述駕駛狀態(tài)信息對應的最大回報值動作;
樣本生成單元,用于向所述試驗車輛發(fā)送所述最大回報值動作,并將所述駕駛狀態(tài)信息、所述最大回報值動作以及所述最大回報值動作的回報值組合成訓練樣本;以及
模型訓練單元,用于判斷所述試驗車輛的試驗是否結(jié)束,是則根據(jù)不同試驗時刻的所述訓練樣本和預設的深度學習算法,對用于車輛自動駕駛的控制策略模型進行訓練,以得到訓練好的、用于車輛自動駕駛的控制策略模型,否則觸發(fā)所述采集篩選單元執(zhí)行采集當前試驗時刻試驗車輛的駕駛狀態(tài)信息的步驟。
7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:
概率估計單元,用于對預先收集的車輛駕駛經(jīng)驗數(shù)據(jù)中駕駛狀態(tài)信息下的車輛動作進行概率主觀估計,生成所述貝葉斯網(wǎng)絡。
8.如權(quán)利要求6所述的裝置,其特征在于,所述采集篩選單元包括:
動作概率確定單元,用于通過所述貝葉斯網(wǎng)絡確定在所述駕駛狀態(tài)信息下所述車輛動作集合中不同車輛動作的出現(xiàn)概率;以及
關(guān)聯(lián)動作確定單元,用于將所述出現(xiàn)概率超過預設概率閾值的車輛動作設置為所述駕駛狀態(tài)信息關(guān)聯(lián)的車輛動作。
9.一種車載設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至5任一項所述方法的步驟。
10.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院深圳先進技術(shù)研究院,未經(jīng)中國科學院深圳先進技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810163708.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 可切換無線數(shù)據(jù)回報率的無線鼠標與應用其的計算機系統(tǒng)
- 執(zhí)行緩存器狀態(tài)回報的方法及其通信裝置
- 緩存器狀態(tài)回報方法及通信裝置
- 一種換流閥回報脈沖動態(tài)性能的模擬系統(tǒng)
- 一種路況監(jiān)測系統(tǒng)及路況監(jiān)測系統(tǒng)的操作方法
- 游戲智能體訓練的優(yōu)化方法、裝置、終端設備與存儲介質(zhì)
- 調(diào)配信道狀態(tài)回報的基站與信道狀態(tài)回報調(diào)配方法
- 資源回報處理方法及裝置、計算機可讀介質(zhì)和電子設備
- 一種基于DQN的云計算資源調(diào)度優(yōu)化方法
- 非平穩(wěn)環(huán)境中去中心化多智能系統(tǒng)的決策方法
- 一種駕駛狀態(tài)監(jiān)控方法及相關(guān)設備
- 一種駕駛員駕駛狀態(tài)辨識用樣本庫的建立方法
- 一種車輛駕駛信息推送方法及裝置
- 一種基于駕駛員狀態(tài)監(jiān)控的主動控車方法和系統(tǒng)
- 信息處理裝置以及計算機可讀存儲介質(zhì)
- 人機共駕環(huán)境下考慮駕駛?cè)藸顟B(tài)的駕駛權(quán)限切換系統(tǒng)
- 一種駕駛行為分析方法
- 一種基于駕駛數(shù)據(jù)采集的駕駛檢測方法及相關(guān)裝置
- 一種駕駛員狀態(tài)信息監(jiān)控方法和裝置
- 駕駛員狀態(tài)檢測方法、裝置、設備、介質(zhì)及程序產(chǎn)品





