[發(fā)明專利]一種模型訓(xùn)練的方法、無人駕駛設(shè)備的控制方法及裝置有效
| 申請?zhí)枺?/td> | 202110657875.9 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113110526B | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計)人: | 劉思威;賈慶山;任冬淳;白鈺;樊明宇;夏華夏;毛一年 | 申請(專利權(quán))人: | 北京三快在線科技有限公司;清華大學(xué) |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G05B13/02;G06K9/62;B60W50/00;B60W60/00 |
| 代理公司: | 北京曼威知識產(chǎn)權(quán)代理有限公司 11709 | 代理人: | 方志煒 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 模型 訓(xùn)練 方法 無人駕駛 設(shè)備 控制 裝置 | ||
1.一種模型訓(xùn)練的方法,其特征在于,包括:
針對每個訓(xùn)練樣本,將作為該訓(xùn)練樣本的歷史傳感數(shù)據(jù)輸入到預(yù)設(shè)的場景行駛模型中,得到該訓(xùn)練樣本對應(yīng)的行駛場景;
將所述歷史傳感數(shù)據(jù)輸入到與所述行駛場景對應(yīng)的決策模型中,得到所述訓(xùn)練樣本對應(yīng)的第一預(yù)測控制策略,以根據(jù)所述第一預(yù)測控制策略,對所述行駛場景對應(yīng)的決策模型進行訓(xùn)練,得到所述行駛場景對應(yīng)的調(diào)整后決策模型;
得到每個調(diào)整后決策模型后,針對每個訓(xùn)練樣本,確定該訓(xùn)練樣本與每個調(diào)整后決策模型之間的匹配度,并根據(jù)所述匹配度,確定該訓(xùn)練樣本對應(yīng)的實際行駛場景;
以最小化所述行駛場景與所述實際行駛場景之間的偏差為優(yōu)化目標,對所述場景行駛模型進行訓(xùn)練,直到確定滿足預(yù)設(shè)訓(xùn)練條件為止,所述場景行駛模型和每個決策模型用于無人駕駛設(shè)備的控制。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述第一預(yù)測控制策略,對所述行駛場景對應(yīng)的決策模型進行訓(xùn)練,得到所述行駛場景對應(yīng)的調(diào)整后決策模型,具體包括:
根據(jù)所述第一預(yù)測控制策略,預(yù)測所述訓(xùn)練樣本對應(yīng)的未來行駛軌跡,并確定所述未來行駛軌跡對應(yīng)的第一評分;
以最大化所述第一評分為優(yōu)化目標,對所述行駛場景對應(yīng)的決策模型進行訓(xùn)練,得到所述行駛場景對應(yīng)的調(diào)整后決策模型。
3.如權(quán)利要求2所述的方法,其特征在于,確定該訓(xùn)練樣本與每個調(diào)整后決策模型之間的匹配度,具體包括:
針對每個調(diào)整后決策模型,將所述歷史傳感數(shù)據(jù)輸入到該調(diào)整后決策模型中,得到該訓(xùn)練樣本對應(yīng)的第二預(yù)測控制策略;
確定所述第二預(yù)測控制策略對應(yīng)的第二評分;
根據(jù)所述第二評分,確定該訓(xùn)練樣本與該調(diào)整后決策模型之間的匹配度。
4.如權(quán)利要求1所述的方法,其特征在于,確定滿足預(yù)設(shè)訓(xùn)練條件,具體包括:
針對每一輪模型訓(xùn)練,從各訓(xùn)練樣本中確定出目標樣本,其中,針對每個訓(xùn)練樣本,若確定該訓(xùn)練樣本在該輪模型訓(xùn)練中所確定出的實際行駛場景,不同于將該訓(xùn)練樣本輸入到上一輪調(diào)整后的場景行駛模型中所識別出的行駛場景,將該訓(xùn)練樣本作為目標樣本;
若確定所述目標樣本在所述各訓(xùn)練樣本中的占比小于設(shè)定占比,確定滿足預(yù)設(shè)訓(xùn)練條件。
5.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
確定算法配置相匹配的各調(diào)整后決策模型,作為各待聚類決策模型;
根據(jù)每個待聚類決策模型中包含的模型參數(shù),對所述各待聚類決策模型進行聚類,得到各聚類簇;
針對每個聚類簇,將該聚類簇中包含的待聚類決策模型對應(yīng)的行駛場景進行合并,得到該聚類簇對應(yīng)的合并行駛場景;
根據(jù)該聚類簇中包含的待聚類決策模型,確定該聚類簇對應(yīng)的合并行駛場景的決策模型。
6.如權(quán)利要求5所述的方法,其特征在于,根據(jù)該聚類簇中包含的待聚類決策模型,確定該聚類簇對應(yīng)的合并行駛場景的決策模型,具體包括:
針對該聚類簇中包含的每個待聚類決策模型,根據(jù)歸屬于該待聚類決策模型對應(yīng)的行駛場景的訓(xùn)練樣本的數(shù)目,確定該待聚類決策模型對應(yīng)的權(quán)重系數(shù);
根據(jù)該聚類簇中各待聚類決策模型對應(yīng)的權(quán)重系數(shù),該聚類簇中各待聚類決策模型包含的模型參數(shù),以及該聚類簇中各待聚類決策模型包含的相匹配的算法配置,生成該聚類簇對應(yīng)的合并行駛場景的決策模型。
7.一種無人駕駛設(shè)備的控制方法,其特征在于,包括:
獲取無人駕駛設(shè)備采集的傳感數(shù)據(jù);
將所述傳感數(shù)據(jù)輸入到預(yù)先訓(xùn)練的場景行駛模型中,得到所述無人駕駛設(shè)備對應(yīng)的行駛場景;
將所述傳感數(shù)據(jù)輸入到與所述行駛場景相匹配的決策模型中,得到所述無人駕駛設(shè)備對應(yīng)的控制策略,所述場景行駛模型和所述決策模型是通過如上述權(quán)利要求1~6任一項所述的模型訓(xùn)練的方法訓(xùn)練得到的;
根據(jù)所述控制策略,對所述無人駕駛設(shè)備進行控制。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司;清華大學(xué),未經(jīng)北京三快在線科技有限公司;清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110657875.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





