[發明專利]使用用于機器學習模型的地面實況數據的自動標注在審
| 申請號: | 202210384953.7 | 申請日: | 2022-04-13 |
| 公開(公告)號: | CN115393581A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | G·霍羅威茨;梅克納·梅農;朱伶;格雷戈里·P·林可夫斯基 | 申請(專利權)人: | 福特全球技術公司 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V10/764;G06V10/82;G06T3/00;G06T7/155;G06T7/73;G06T7/194;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 劉小峰;陳黎明 |
| 地址: | 美國密歇根*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 用于 機器 學習 模型 地面 實況 數據 自動 標注 | ||
本公開提供“使用用于機器學習模型的地面實況數據的自動標注”。本公開描述了與自動標注相關的系統、方法和裝置。一種裝置可捕獲與包括對象的圖像相關聯的數據。裝置可以獲取與對象相關聯的輸入數據。裝置可以估計所述圖像的幀內的多個點,其中所述多個點構成用于圍繞所述對象的3D邊界。裝置可以將所述多個點變換為兩個或更多個2D點。裝置可以使用所述兩個或更多個2D點來構造包封所述對象的邊界框。裝置可以使用形態學技術來創建所述對象的分割掩模。裝置可以基于所述分割掩模來執行標注。
技術領域
本公開涉及與自動標注相關的系統、方法和裝置。
背景技術
機器學習越來越多地用于解決例如在機器人學或其他領域中的復雜問題,包括圖像幀內的機器人識別和分類問題。當前的機器學習分類訓練需要大量帶標注的輸入樣本數據來訓練和驗證機器學習模型。這些輸入樣本數據需要被標記或標注,特別是用圖像。
發明內容
從歷史上看,每個帶標注的樣本都需要用戶在要訓練的對象(例如,機器人或其他對象)周圍手動繪制邊界框并對其進行相應地分類。例如,人在圖片中圍繞蘋果繪制輪廓,并將其分類為“蘋果”,以便機器學習模型能夠在稍后的時間識別圖片中的蘋果。換句話說,盡管由相機捕獲圖像,但是這些圖像不會被自動標注以便確定什么對象在這些圖像中。例如,如果相機捕獲機器人的圖像,則用戶知道它是機器人,但是相機或系統在沒有某種形式的標注的情況下不會知道。該手動標注過程以員工時間的形式或利用提供標注的服務占用大量資源(時間和金錢)。
需要實現對與圖像相關聯的大型數據集的更快且更有效的標注。例如,如果相機捕獲10,000個圖像幀,并且對象(例如,機器人)以不同位置、取向和尺度在這些幀中的5,000個幀中被發現,則為了訓練神經網絡,需要針對每個圖像知道所述機器人是否在所述圖像中。此外,可能需要在圖像中以圖像坐標的形式知道對象的輪廓。
本公開的示例性實施例涉及用于利用供在定制的機器學習模型中使用的同步的地面實況數據的自動標注過程的系統、方法和裝置。
在一個或多個實施例中,自動標注系統可以促進使用同步的地面實況數據來快速且有效地識別和轉換對象(例如,機器人、蘋果、雕像或任何其他對象)的位置。具體地,在數據集圖像的收集期間通過傳感器定位獲得的數據的使用以及使該數據收集同步是本公開中描述的過程的重要方面。然后,使用此同步數據來創建機器學習模型的輸入所涉及的過程對于這種數據收集方法來說是獨特的。
輸入數據可以是對象的時間同步姿態,然而,重要的是要注意輸入數據如何產生。輸入數據可以與預建地圖和正態分布變換(NDT)匹配相關聯以定位對象。也可以使用其他方法來定位對象。總的來說,整個過程包含新穎的想法,因為以該特定順序并使用所描述的決策標準完成的所描述的步驟實現了當前不存在的自動標注過程。例如,對象(例如,機器人、蘋果、雕像或任何其他對象)的尺寸可以是已知的,這允許在該對象周圍的世界坐標系中創建3D邊界立方體。自動標注空間中的現有解決方案似乎是基于文本的標注,這是與所捕獲圖像中的對象的標注所需的用例和過程不同的用例和過程。類似地,關于生成訓練集的圖像相關解決方案也依賴于實現生成式對抗網絡或眾包標注并使用地面實況進行驗證,而不是如本公開中所述直接從數據集創建標注。
在一個或多個實施例中,一旦確定了3D邊界立方體,自動標注系統就可以促進將3D邊界立方體投影到2D圖像平面中。該投影是通過使用將3D邊界立方體中的多個點(例如,8個點)下采樣為2D圖像平面中的更少數量的點(例如,4個點)來實現的。通過選擇將導致將對象(例如,機器人)包含在圖像幀內的特定點來執行該下采樣。然后可以將該過程應用于大量圖像。
在一個或多個實施例中,自動標注系統具有許多優點,諸如節省資源和時間。例如,如果數據集包括10,000個圖像并且如果一個人手動標注每個圖像需要30秒,則這相當于大約83.3小時或超過兩周的工作。替代地,如果標注過程以每個標注約1美元的成本進行外包,則將花費10,000美元。此處概述的過程可以在幾分鐘內完成,并且包括可忽略的成本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司,未經福特全球技術公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210384953.7/2.html,轉載請聲明來源鉆瓜專利網。





