[發明專利]一種篩選樣本的方法、系統、設備及介質在審
| 申請號: | 202011195232.9 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112308144A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 胡祎波;曹文飛;張博宣;趙禮悅;蔣博劼;張旭;盧智聰;翁謙 | 申請(專利權)人: | 江蘇云從曦和人工智能有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 李鐵 |
| 地址: | 215021 江蘇省蘇州市蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 篩選 樣本 方法 系統 設備 介質 | ||
1.一種篩選樣本的方法,其特征在于,應用于計算機模型訓練過程,包括以下步驟:
從目標樣本集中獲取部分未標注樣本形成候選樣本集,其中,目標樣本集中的樣本包括以下至少之一:圖像、語音、文字;
利用分類模型對所述候選樣本集中每個未標注樣本進行多次預測,得到所述候選樣本集中每個未標注樣本的多次預測結果;
根據所述候選樣本集中每個未標注樣本的多次預測結果確定所述候選樣本集中每個未標注樣本的不確定性值;
從所述候選樣本集中篩選出不確定性值最高的前K個未標注樣本,以作為所述分類模型的訓練樣本。
2.根據權利要求1所述的篩選樣本的方法,其特征在于,利用分類模型對所述候選樣本集中每個未標注樣本進行多次預測,得到所述候選樣本集中每個未標注樣本的多次預測結果的過程包括:
利用所述分類模型對所述候選樣本集中的每個未標注樣本進行多次預測,且在每次預測時將所述分類模型中的神經網絡的每一個神經元以預設概率進行隨機丟棄,得到完成隨機dropout操作后的分類模型;
根據完成隨機dropout操作后的分類模型中的神經網絡計算所述候選樣本集中每個未標注樣本在不同樣本類別上的預測概率,得到單次預測結果;
基于所述候選樣本集中每個未標注樣本的所有單次預測結果得到所述候選樣本集中每個未標注樣本的多次預測結果。
3.根據權利要求2所述的篩選樣本的方法,其特征在于,所述根據所述候選樣本集中每個未標注樣本的多次預測結果計算所述分類模型的不確定性值,并基于所述分類模型的不確定性值確定所述候選樣本集中每個未標注樣本的不確定性值;包括:
將所述候選樣本集中每個未標注樣本輸入至第t次dropout操作后得到的分類模型中的神經網絡進行預測,計算所述候選樣本集中每個未標注樣本被預測為第c個樣本類別的概率,以得到所述候選樣本集中每個未標注樣本的多次預測結果;
根據所述候選樣本集中每個未標注樣本的多次預測結果計算初始訓練分類模型的不確定性值,有:
其中,t為dropout操作的編號,代表第t次dropout操作;c為樣本類別的編號,代表第c個樣本類別;為利用第t次dropout操作后得到的分類模型中的神經網絡將輸入的未標注樣本預測為第c個樣本類別的概率;T為dropout操作的總次數;I[w|x,Dtrain]為根據候選樣本集中第x個未標注樣本計算的分類模型的不確定性值,此時分類模型的訓練集為Dtrain,模型訓練參數為w;
將根據候選樣本集中第x個未標注樣本計算的分類模型的不確定性值I[w|x,Dtrain]作為所述候選樣本集中第x個未標注樣本的不確定性值或I[w|x,Dtrain]是第x個未標注樣本的不確定性值。
4.根據權利要求1所述的篩選樣本的方法,其特征在于,獲取所述分類模型的過程包括:
從所述目標樣本集中獲取剩余的未標注樣本;
對剩余的未標注樣本進行標注,形成初始訓練集;
利用所述初始訓練集對初始分類模型進行訓練,獲取初始訓練分類模型;并將所述初始訓練分類模型作為所述分類模型;
或者,使用預訓練模型對初始分類模型進行訓練,獲取初始訓練分類模型,并將所述初始訓練分類模型作為所述分類模型。
5.根據權利要求4所述的篩選樣本的方法,其特征在于,還包括利用篩選出的不確定性值最大的前K個未標注樣本對所述分類模型進行迭代優化,迭代優化過程如下:
將從候選樣本集中篩選出的不確定性值最大的前K個未標注樣本推送至標注平臺進行標注,并將完成標注后的K個樣本加入至所述初始訓練集中擴充所述初始訓練集;
根據擴充后的初始訓練集對所述分類模型進行迭代優化訓練,并將完成迭代優化訓練后的分類模型作為所述最終的分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇云從曦和人工智能有限公司,未經江蘇云從曦和人工智能有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011195232.9/1.html,轉載請聲明來源鉆瓜專利網。





