[發明專利]一種模型訓練以及軌跡規劃的方法及裝置有效
| 申請號: | 202110338028.6 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112949756B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 李瀟;丁曙光;杜挺;袁克彬;任冬淳 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京曼威知識產權代理有限公司 11709 | 代理人: | 方志煒 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 訓練 以及 軌跡 規劃 方法 裝置 | ||
本說明書公開了一種模型訓練以及軌跡規劃的方法及裝置,可獲取無人設備的狀態信息作為訓練樣本,針對每次迭代訓練,獲取上一次迭代訓練得到的軌跡置信度,將訓練樣本輸入位置確定模型,得到由位置確定模型根據訓練樣本和獲取的軌跡置信度輸出的目標位置,根據訓練樣本以及目標位置,通過決策模型得到無人設備到達目標位置的目標軌跡以及目標軌跡的軌跡置信度。通過上述方法,基于每次目標軌跡的軌跡置信度,位置確定模型可重新確定更好的目標位置,從而基于目標位置由決策模型再次規劃目標軌跡,以此來訓練位置確定模型以及決策模型。
技術領域
本說明書涉及無人駕駛技術領域,尤其涉及一種模型訓練以及軌跡規劃的方法及裝置。
背景技術
通常,無人設備在運行時,可通過機器學習模型確定控制信息,并基于控制信息對無人設備進行控制。
例如,無人設備可將無人設備當前的狀態、環境信息等輸入強化學習模型,得到強化學習模型輸出的油門控制量、方向盤轉角等信息,并控制無人設備按照強化學習模型輸出的信息運行。
實際上,上述方式在無人設備的運行中,隨著時間的推移不斷地基于強化學習模型得到控制信息,而無人設備按照控制信息運行時,運行的軌跡可能在軌跡線曲率等方面不夠平滑,導致運行的舒適性和可靠性并不能得到較好的保障,因此,如何較好地控制無人設備的運行,成為亟需解決的問題。
發明內容
本說明書實施例提供一種模型訓練以及軌跡規劃的方法及裝置,以部分地解決現有技術存在的上述問題。
本說明書實施例采用下述技術方案:
本說明書提供的一種模型訓練的方法,所述方法包括:
獲取無人設備的狀態信息作為訓練樣本;
根據所述訓練樣本,采用下述方法對位置確定模型以及決策模型進行迭代訓練:
針對每次迭代訓練,獲取上一次迭代訓練得到的軌跡置信度,將所述訓練樣本輸入所述位置確定模型,得到由所述位置確定模型根據所述訓練樣本和獲取的軌跡置信度輸出的目標位置,所述位置確定模型用于規劃所述無人設備的目標位置;
根據所述訓練樣本以及所述目標位置,通過決策模型得到所述無人設備到達所述目標位置的目標軌跡以及所述目標軌跡的軌跡置信度。
可選地,根據所述訓練樣本以及所述目標位置,通過決策模型得到所述無人設備到達所述目標位置的目標軌跡以及所述目標軌跡的軌跡置信度,具體包括:
在所述目標位置的鄰域內,確定若干個指定位置,由所述目標位置以及各指定位置組成位置集合;
將所述訓練樣本以及所述位置集合輸入所述決策模型,得到由所述決策模型輸出的所述無人設備到達所述位置集合中包含的每個位置的待定軌跡以及每個待定軌跡的軌跡置信度;
根據各軌跡置信度,在各待定軌跡中,選擇所述目標軌跡。
可選地,所述決策模型包括第一子模型以及第二子模型;
根據所述訓練樣本以及所述目標位置,通過決策模型得到所述無人設備到達所述目標位置的目標軌跡以及所述目標軌跡的軌跡置信度,具體包括:
將所述訓練樣本以及所述目標位置輸入所述第一子模型,得到所述第一子模型輸出的所述目標軌跡;
將所述目標軌跡輸入所述第二子模型,由所述第二子模型根據預設的若干個參數,得到所述目標軌跡的軌跡置信度。
可選地,將所述訓練樣本以及所述目標位置輸入所述第一子模型,得到所述第一子模型輸出的所述目標軌跡,具體包括:
獲取所述無人設備所處環境中各障礙物的信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110338028.6/2.html,轉載請聲明來源鉆瓜專利網。





