[發明專利]一種基于多樣性的樣本篩選方法、系統、設備及介質在審
| 申請號: | 202011195231.4 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112308143A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 曹文飛;趙禮悅;胡祎波;蔣博劼;張旭;張博宣;盧智聰;翁謙 | 申請(專利權)人: | 江蘇云從曦和人工智能有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 李鐵 |
| 地址: | 215021 江蘇省蘇州市蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多樣性 樣本 篩選 方法 系統 設備 介質 | ||
1.一種基于多樣性的樣本篩選方法,其特征在于,應用于計算機模型訓練過程,包括以下步驟:
從目標樣本集中獲取部分未標注樣本形成候選樣本集;其中,目標樣本集中的樣本包括以下至少之一:圖像、語音、文字;
利用分類模型對所有增強樣本進行預測,并根據預測結果計算所述候選樣本集中每個未標注樣本的多樣性值;
根據計算出的多樣性值從所述候選樣本集中篩選出若干個未標注樣本,以作為所述分類模型的訓練樣本。
2.根據權利要求1所述的基于多樣性的樣本篩選方法,其特征在于,獲取所述分類模型的過程包括:
從所述目標樣本集中獲取剩余的未標注樣本;
對剩余的未標注樣本進行標注,形成初始訓練集;
利用所述初始訓練集對初始分類模型進行訓練,獲取初始訓練分類模型;并將所述初始訓練分類模型作為所述分類模型;
或者,使用預訓練模型對初始分類模型進行訓練,獲取初始訓練分類模型;并將所述初始訓練分類模型作為所述分類模型。
3.根據權利要求2所述的基于多樣性的樣本篩選方法,其特征在于,獲取所述分類模型的過程還包括:
將從候選樣本集中篩選出的若干個未標注樣本推送至標注平臺進行標注,并將完成標注后的若干個樣本加入至所述初始訓練集中擴充所述初始訓練集;
根據擴充后的初始訓練集對所述分類模型進行迭代優化訓練,并將完成迭代優化訓練后的分類模型作為所述最終的分類模型。
4.根據權利要求3所述的基于多樣性的樣本篩選方法,其特征在于,在將篩選出的若干個未標注樣本推送至標注平臺前,或者在標注平臺對篩選出的若干個未標注樣本進行標注過程中;還包括對篩選出的若干個未標注樣本進行預標注;其中,進行預標注的方式包括以下之一:
利用未進行迭代優化的所述分類模型對篩選出的若干個未標注樣本進行預標注、利用完成迭代優化訓練的所述分類模型對篩選出的若干個未標注樣本進行預標注、利用人工對篩選出的若干個未標注樣本進行預標注。
5.根據權利要求1所述的基于多樣性的樣本篩選方法,其特征在于,利用分類模型對所有增強樣本進行預測,并根據預測結果計算所述候選樣本集中每個未標注樣本的多樣性值,包括:
利用所述分類模型預測每一所述增強樣本被預測為樣本類別集合中各類別的概率,以得到所述預測結果;
對于第i個未標注樣本對應的任意兩個增強樣本和增強樣本通過樣本間的對稱KL散度計算兩者之間的距離:
其中,0<j≤m,0<l≤m;Y為樣本類別集合;|Y|為樣本類別總數;為增強樣本被預測為樣本類別集合中第k個類別的概率;為增強樣本被預測為樣本類別集合中第k個類別的概率;i為所述候選樣本集中未標注樣本的樣本編號;di(j,l)為增強樣本和增強樣本的距離;
對m個增強樣本進行兩兩組合后的距離進行求和,并將求和后的數值作為所述候選樣本集中的第i個未標注樣本的多樣性值大小;
其中,所述m個增強樣本由第i個未標注樣本進行數據增強得到;Ri為所述候選樣本集中的第i個未標注樣本的多樣性值大小。
6.根據權利要求1所述的基于多樣性的樣本篩選方法,其特征在于,還包括對所述候選樣本集中的每個未標注樣本進行數據增強,生成對應的增強樣本;若所述目標樣本集中的樣本為圖像;則對圖像進行數據增強的方式包括以下至少之一:
對圖像進行旋轉、對圖像進行錯切、對圖像進行翻轉、對圖像進行色彩調整、對圖像進行色調分離、對圖像進行曝光度調整、對圖像進行對比度調整、對圖像進行亮度調整、對圖像進行銳化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇云從曦和人工智能有限公司,未經江蘇云從曦和人工智能有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011195231.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種中性硅酮膠基料生產線
- 下一篇:一種篩選樣本的方法、系統、設備及介質





