[發明專利]動作控制方法及裝置有效
| 申請號: | 201711408965.4 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN109960246B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 錢俊;王新宇;陳晨 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G05D1/00 | 分類號: | G05D1/00 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 肖慶武 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動作 控制 方法 裝置 | ||
1.一種動作控制方法,其特征在于,所述方法包括:
將N個維度中每個維度的狀態空間劃分為多個狀態區間;
基于控制模型,獲取所述多個狀態區間中每個狀態區間的典型離散決策,得到多個典型離散決策,所述狀態區間的典型離散決策是指以狀態區間的中心值為所述控制模型的輸入時所述控制模型輸出概率最大的離散決策;
基于所述多個典型離散決策,將對應于同一典型離散決策且相鄰的多個狀態區間合并為一個模糊子集,得到每個維度的至少一個模糊子集;
獲取車輛的所述N個維度的狀態,所述N為大于或等于1的正整數;
基于所述N個維度中每個維度的狀態的激活模糊子集以及所述控制模型,得到多個離散決策,一個狀態的激活模糊子集是指所述狀態的隸屬度不為0的模糊子集,每個模糊子集是指一個維度內對應于同一個離散決策的狀態區間,所述隸屬度用于表示狀態隸屬于模糊子集的程度高低,所述多個離散決策中的每個離散決策包括轉向角、加速度、油門、剎車中的至少一項,所述控制模型用于根據輸入的狀態輸出對應的離散決策,所述控制模型是采用強化學習算法訓練得到的;
基于所述每個維度的狀態與激活模糊子集之間的隸屬度,對所述多個離散決策進行加權求和,得到連續決策;
基于所述連續決策,控制所述車輛執行對應的駕駛動作。
2.根據權利要求1所述的方法,其特征在于,所述基于所述每個維度的狀態與激活模糊子集之間的隸屬度,對所述多個離散決策進行加權求和,得到連續決策,包括:
對于所述多個離散決策中的每個離散決策,獲取所述每個離散決策對應的N個激活模糊子集的隸屬度,得到N個隸屬度;
基于所述N個隸屬度,計算所述每個離散決策的權重;
基于所述每個離散決策的權重,對所述多個離散決策進行加權求和,得到所述連續決策。
3.根據權利要求1所述的方法,其特征在于,所述基于所述N個維度中每個維度的狀態的激活模糊子集以及所述控制模型,得到多個離散決策,包括:
獲取所述N個維度中每個維度的激活模糊子集的中心值,得到多個中心值;
對不同維度的中心值進行組合,得到多個中間狀態,每個中間狀態包括N個維度的中心值;
分別將所述多個中間狀態輸入到所述控制模型中,得到所述控制模型輸出的多個離散決策。
4.根據權利要求1所述的方法,其特征在于,所述基于所述N個維度中每個維度的狀態的激活模糊子集以及所述控制模型,得到多個離散決策之前,所述方法還包括:
對于所述N個維度中的每個維度,當所述每個維度的狀態與所述每個維度的任一模糊子集之間的隸屬度不為0時,將所述每個模糊子集作為所述每個維度的激活模糊子集;或,
對于所述N個維度中的每個維度,從所述每個維度的多個模糊子集中選取中心值位于所述每個維度的狀態左右的兩個模糊子集,作為所述每個維度的激活模糊子集。
5.根據權利要求1所述的方法,其特征在于,所述基于控制模型,獲取所述多個狀態區間中每個狀態區間的典型離散決策,包括:
對于所述多個狀態區間中的每個狀態區間,獲取所述每個狀態區間的多個代表狀態,每個代表狀態包括所述每個維度上的所述每個狀態區間的中心值以及其他每個維度上的任一個狀態;
分別將所述多個代表狀態輸入到所述控制模型中,得到所述控制模型輸出的多個離散決策;
從所述多個離散決策中選取出現次數最多的離散決策,作為所述每個狀態區間的典型離散決策。
6.根據權利要求1所述的方法,其特征在于,所述獲取車輛的所述N個維度的狀態之后,所述方法還包括:
對于所述N個維度中每個維度的每個模糊子集,采用所述每個模糊子集對應的隸屬度函數,對所述每個維度的狀態進行計算,得到所述每個模糊子集的隸屬度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711408965.4/1.html,轉載請聲明來源鉆瓜專利網。





