[發明專利]一種元宇宙原始數據的標記方法及標記系統在審
| 申請號: | 202210839111.6 | 申請日: | 2022-07-18 |
| 公開(公告)號: | CN115145995A | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 譚久林;楊志芳;李小龍 | 申請(專利權)人: | 新疆元宇宙人工智能科技有限公司 |
| 主分類號: | G06F16/26 | 分類號: | G06F16/26;G06K9/62 |
| 代理公司: | 北京中索知識產權代理有限公司 11640 | 代理人: | 隋曉勇 |
| 地址: | 830000 新疆維吾爾自治區烏魯木齊市新市區*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 宇宙 原始數據 標記 方法 系統 | ||
本發明提供一種元宇宙原始數據的標記方法及標記系統,所述標記方法包括以下步驟:導入用于數據挖掘的挖掘集和帶有訓練目標的數據集,設置挖掘策略;訓練初始模型;準備迭代數據,通過MetaDataLabeler的模型迭代流程對初始模型進行迭代;對待挖掘的數據集進行數據挖掘;對沒有標簽的數據進行標注;將標注好的數據集合并到訓練集中生成新的訓練集版本,再次進行模型訓練生成新的模型版本。本發明從海量數據中挖掘出對模型能力提高最有利的數據,僅針對這部分數據進行標注,對原本的訓練數據集進行高效擴充,使用更新后的數據集再次訓練模型來提高模型能力,減少了對低質量數據的標注成本,擴充了高質量數據,提升了模型能力。
技術領域
本發明涉及元宇宙技術領域,具體而言,涉及一種元宇宙原始數據的標記方法及標記系統。
背景技術
目前人工智能商業化在算力、算法和技術方面,已基本達到階段性成熟,AI行業高速發展,智能駕駛、智能終端等領域不斷發展,應用落地不斷加速,通過算法和應用的落地來真正解決行業具體難點。
隨著AI應用場景的豐富,對AI數據服務將產生長期海量的需求,需要采集大量人工智能相關的原始數據,并經過標注處理后做算法訓練支撐。數據和標簽是AI模型訓練的必要條件,深度學習模型的訓練需要大量帶標簽的數據。以計算機視覺為例,一個新場景的開發支持需要上萬張甚至數十萬張不等的經過采集和標注的圖片。
然而在實際情況下,對于海量的數據采集和標注,傳統的數據采集、標注與管理的方法需花費很長時間,效率低下。現實中存在的是大量沒有標簽的數據,如果全部由標注人員手工打上標簽,人力和時間成本過高。
發明內容
鑒于此,本發明的目的在于通過主動學習的方法,首先通過本地導入或者少量數據來訓練出一個初始模型,使用該初始模型,在海量數據中快速尋找到對模型優化最有利的數據,降低標注成本,減少迭代時間,保障模型的持續迭代。
MetaDataLabeler是一個數據驅動的算法訓練平臺,能夠做到以無代碼開發的方式,實現數據管理、數據標注、數據挖掘、模型訓練、模型驗證等功能。
本發明在傳統的數據采集與標注解決方案基礎上,將數據導入、數據清洗、數據標注、標注審核、標簽管理等功能集成在MetaDataLabeler平臺上,解決了數據管理與標注問題。
本發明提供一種元宇宙原始數據的標記方法,包括以下步驟:
A、導入用于數據挖掘的挖掘集(可以不需要包含標注文件),以及帶有訓練目標的數據集,設置對應的數據集和挖掘策略,用于訓練初始模型;
所述帶有訓練目標的數據集包括:訓練集、測試集;
B、選擇訓練集,選擇測試集,選擇訓練目標,選擇前置預訓練模型、訓練鏡像、訓練類型、算法框架、骨干網絡結構、GPU個數以及配置訓練參數中的一種或多種的組合,訓練初始模型;
訓練成功后,可跳轉到模型列表界面,查看到相應的訓練進度和信息,完成后可查看模型的效果(mAP值);
C、完成所述初始模型的訓練后,對所述初始模型設置準備迭代數據,通過MetaDataLabeler提供的標準化的模型迭代流程進行迭代;
MetaDataLabeler在每一步操作中幫助用戶默認填入上一次的操作結果,普通用戶按照既定步驟操作,即可完成完整的模型迭代流程;
D、使用初始模型對待挖掘的數據集進行數據挖掘;對挖掘出來的沒有標簽的數據進行標注;將標注好的數據集合并到訓練集中,并將合并結果生成為一個新的訓練集版本,合并完成后,再次進行模型訓練,生成新的模型版本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆元宇宙人工智能科技有限公司,未經新疆元宇宙人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210839111.6/2.html,轉載請聲明來源鉆瓜專利網。





