[發(fā)明專利]機器學習模型能力的獲取方法、系統(tǒng)、終端、介質及應用在審
| 申請?zhí)枺?/td> | 202110824038.0 | 申請日: | 2021-07-21 |
| 公開(公告)號: | CN113344916A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設計)人: | 王天鶴;章曙涵;熊意超 | 申請(專利權)人: | 上海媒智科技有限公司 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06T5/00;G06N20/00 |
| 代理公司: | 上海恒慧知識產權代理事務所(特殊普通合伙) 31317 | 代理人: | 劉翠 |
| 地址: | 200030 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習 模型 能力 獲取 方法 系統(tǒng) 終端 介質 應用 | ||
本發(fā)明提供了一種機器學習模型能力的快速獲取方法及系統(tǒng),包括:獲取機器學習處理任務所需的原始數(shù)據(jù),并進行預處理,得到初始數(shù)據(jù);獲取通用任務模型,并采用所述通用任務模型對所述初始數(shù)據(jù)進行信息標注,得到初步標注信息;對得到的所述初步標注信息進行數(shù)據(jù)驗證,構建數(shù)據(jù)集;建立機器學習模型,并采用所述數(shù)據(jù)集對所述機器學習模型進行訓練,完成對機器學習模型能力的快速獲取。同時提供了一種相應的終端、介質及應用。本發(fā)明在數(shù)據(jù)標注明顯不足時,能夠快速獲取標注數(shù)據(jù)對相應任務的模型能力進行訓練。
技術領域
本發(fā)明涉及機器學習技術領域,具體地,涉及一種機器學習模型能力的快速獲取方法、系統(tǒng)、終端、介質及應用。
背景技術
對于機器學習、深度學習任務來說,標注數(shù)據(jù)的獲取是至關重要的一環(huán)。大多數(shù)情況下,這類數(shù)據(jù)需要通過人工標注來實現(xiàn)。在計算機視覺這個分支領域,訓練深度神經(jīng)網(wǎng)絡模型所需的數(shù)據(jù)量通常非常龐大,對這樣龐大的數(shù)據(jù)集進行人工標注通常存在如下問題:
1.工作量大,重復率高;
2.操作繁瑣,流程復雜;
3.對于特定任務,有時需要標注人員有一定的先驗知識,這依賴特定業(yè)務人員對標注人員的培訓,而標注人員學習質量極大影響標注質量。
這些問題使得人工標注的成本居高不下,同時在實際生產過程中標注的速度和質量也極大影響著整個項目的進程與效果。針對上述問題,亟需一種在降低人工成本前提下的快速獲取標注的方法。目前,有通過先使用少量標注訓練模型再不斷使用模型進行標注,從而不斷迭代的方法;也有通過對連續(xù)圖像中同一物體的追蹤來提高標注效率的方法。
經(jīng)過檢索發(fā)現(xiàn):
公開號為CN112434794A的中國發(fā)明專利申請《一種基于深度學習的計算機視覺數(shù)據(jù)集半自動標注方法及系統(tǒng)》,提出了一種不斷迭代的方法。該方法通過先抽取一部分數(shù)據(jù)進行標注和增廣并訓練模型,再通過模型來得到標注,經(jīng)過人工復檢來得到最終標注。方法由于需要首先對數(shù)據(jù)集的子集進行人工標注,如果子集的選擇不夠多或者不能代表整體數(shù)據(jù)集的分布,那么后續(xù)人工復檢的成本其實與直接標注接近,仍沒有解決上述問題。
授權公告好為CN103218603B的中國發(fā)明專利《一種人臉自動標注方法及系統(tǒng)》,提出了一種基于追蹤和唇動檢測等信息結合的輔助標注方法。該方法通過人臉檢測,鏡頭分割,人臉追蹤,唇動檢測等一系列模塊的邏輯組合來達到輔助標注的效果。這種方法只能在特定的人臉場景下使用,其復雜的模塊間的調用邏輯使該方法難以遷移到其他任務中來。
公開號為CN112036441A的中國發(fā)明專利申請《機器學習物體檢測結果的反饋標注方法和裝置、存儲介質》,提出了一種機器學習物體檢測結果的反饋標注方法和裝置、存儲介質,通過記錄機器學習執(zhí)行物體檢測獲得的標注框和人工標注的標注框,并進行比對來實現(xiàn)檢驗機器學習物體檢測結果的正確性的反饋機制。該方法仍然需要首先對數(shù)據(jù)集進行人工標注,且只能在特定的物體檢測任務中使用。
綜上所述,現(xiàn)有的標注技術仍然沒有解決上述問題。
發(fā)明內容
本發(fā)明針對現(xiàn)有技術中存在的上述不足,提供了一種機器學習模型能力的快速獲取方法、系統(tǒng)、終端、介質及應用。
根據(jù)本發(fā)明的一個方面,提供了一種機器學習模型能力的獲取方法,包括:
獲取機器學習處理任務所需的原始數(shù)據(jù),并進行預處理,得到初始數(shù)據(jù);
獲取通用任務模型,并采用所述通用任務模型對所述初始數(shù)據(jù)進行任務目標信息標注,得到初步標注信息;
對得到的所述初步標注信息進行數(shù)據(jù)驗證,構建數(shù)據(jù)集;
建立機器學習模型,并采用所述數(shù)據(jù)集對所述機器學習模型進行訓練,完成對機器學習模型能力的快速獲取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海媒智科技有限公司,未經(jīng)上海媒智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110824038.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





