[發(fā)明專利]一種用于自動駕駛控制策略的訓練系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910030302.6 | 申請日: | 2019-01-14 |
| 公開(公告)號: | CN109765820B | 公開(公告)日: | 2019-08-09 |
| 發(fā)明(設計)人: | 秦熔均 | 申請(專利權(quán))人: | 南棲仙策(南京)科技有限公司 |
| 主分類號: | G05B19/042 | 分類號: | G05B19/042;G05D1/02;G06K9/62;G06N3/04 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 孫承堯 |
| 地址: | 210046 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 控制策略 自動駕駛 駕駛控制 訓練系統(tǒng) 模擬器 策略模型 策略搜索 基于機器 構(gòu)建 遷移 學習 對抗 安全 | ||
本發(fā)明公開了一種用于自動駕駛控制策略的訓練系統(tǒng),系統(tǒng)以基于機器學習的模擬器構(gòu)建、基于對抗學習的駕駛控制策略搜索、駕駛控制策略模型遷移三大模塊為特點,解決以往自動駕駛領(lǐng)域無法獲得安全合規(guī)的控制策略難題。
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于自動駕駛控制策略的訓練系統(tǒng),可用于無人車、機器人、無人機等無人設備的控制,屬于自動駕駛技術(shù)領(lǐng)域。
背景技術(shù)
自動駕駛的目標是其從輔助駕駛員駕駛到最終替代駕駛員,實現(xiàn)安全、合規(guī)、便捷的個人自動交通系統(tǒng)。現(xiàn)有的自動駕駛系統(tǒng)中,駕駛控制策略多為基于人工規(guī)則的方案、或基于實時規(guī)劃的方案。現(xiàn)有的方案不具備智能特性,在實現(xiàn)安全性駕駛方面存在嚴重缺陷,無法設計出能夠覆蓋所有場景、特別是極端場景的自動駕駛控制策略。
近期有部分自動駕駛方案引入機器學習,通過采集駕駛員駕駛數(shù)據(jù),以監(jiān)督學習方式訓練模型,使模型輸出與人類駕駛習慣相似。此類方法需要收集大量駕駛數(shù)據(jù)進行模型訓練,一方面仍需引入大量人力的參與,而另一方面,即使收集了大量駕駛數(shù)據(jù),但其中包含的極端場景數(shù)據(jù)非常稀少,仍無法完全覆蓋各種駕駛場景,使得最終以監(jiān)督學習方式訓練得到的模型存在場景盲區(qū),當在陌生場景下使用時,無法安全的完成駕駛?cè)蝿铡?/p>
強化學習是通過智能體與環(huán)境不斷交互試錯,提升智能體自身的決策水平,使智能體在環(huán)境中逐漸學得最優(yōu)控制策略,自動完成控制任務。然而,強化學習的學習過程需要智能體與環(huán)境進行大量交互試錯,在實際的自動駕駛場景中,則需要無人車在物理世界中大量的自由探索,顯然,此種方式極具危險性,且代價高昂。
因此,在自動駕駛?cè)蝿罩校叫枰环N新型的自動駕駛策略訓練的技術(shù)方案來解決這一問題。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明提供一種用于生成安全自動駕駛控制策略的訓練系統(tǒng)。
技術(shù)方案:一種用于自動駕駛控制策略的訓練系統(tǒng),包括模擬器構(gòu)造、策略搜索、策略遷移三個模塊;
模擬器構(gòu)造,包含車輛動力系統(tǒng)、行駛道路靜態(tài)因素的模擬,以及行人、非機動車、周邊車輛動態(tài)因素的模擬;
策略搜索,在構(gòu)造出的模擬器中,設置指標函數(shù),指標函數(shù)的構(gòu)成包含目的地是否達到的目標評判值、駕駛過程是否違反交通規(guī)則的合規(guī)評判值、駕駛過程是否出現(xiàn)碰撞的安全評判值、駕駛過程是否產(chǎn)生過大加速的舒適性評判值等,通過將各個評判值的加權(quán)求和,得到指標函數(shù),然后使用機器學習方法搜索最優(yōu)化指標函數(shù)的駕駛控制策略;
策略遷移,根據(jù)無人車實體采集的數(shù)據(jù),對模擬器中搜索到的策略進行再次訓練,以得到在無人車實體上使用的駕駛控制策略。
模擬器中動態(tài)因素的模擬為:
首先,通過拍攝道路視頻;
其次,通過人工標注的方法,或?qū)ο髾z測算法,將道路視頻中的動態(tài)因素檢測出;
然后,對于每一個動態(tài)因素o,提取其每一時刻t的周邊信息S(o,t)、位置信息L(o,t),并將周邊信息S(o,t)與位置移動信息L(o,t)-L(o,t-1)配對,即S(o,t)的標記為L(o,t)-L(o,t-1),構(gòu)建所有動態(tài)因素和所有時刻的標記數(shù)據(jù)集;
再次,使用監(jiān)督學習方法,例如深度神經(jīng)網(wǎng)絡學習算法、決策樹學習算法等,從標記數(shù)據(jù)集訓練出預測模型H,H的輸入為S(o,t),輸出為L(o,t)-L(o,t-1)的預測值;
最后,在模擬器中,對每一個動態(tài)因素o提取周邊信息S(o)和位置信息L(o),通過調(diào)用預測模型H(S(o))得到值v,L(o)+v即為該動態(tài)因素的下一位置。
該方案為每一個動態(tài)因素生成一個預測模型,該模型根據(jù)輸入的狀態(tài)預測下一位置的差,因此具備環(huán)境的響應能力,也不需模擬器與視頻拍攝場景完全一致。策略搜索:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南棲仙策(南京)科技有限公司,未經(jīng)南棲仙策(南京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910030302.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





