[發明專利]一種基于主動學習的樣本標注方法在審
| 申請號: | 202011186817.4 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112308139A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 陳能;安竹林;徐勇軍;程坦 | 申請(專利權)人: | 中國科學院計算技術研究所廈門數據智能研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/532;G06F16/583 |
| 代理公司: | 廈門致群財富專利代理事務所(普通合伙) 35224 | 代理人: | 劉兆慶 |
| 地址: | 361000 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主動 學習 樣本 標注 方法 | ||
本發明公開了一種基于主動學習的樣本標注方法,包括如下步驟:S1、從樣本池中隨機小樣本抽樣并標注,得到初始標注樣本;S2、采用度量學習計算初始標注樣本與待標注樣本的特征距離,生成特征距離圖,遍歷特征距離圖,在樣本池中尋找與初始標注樣本距離小于閾值的樣本并抽取出來;S3、將抽取出來的樣本再次進行標注并匯入初始標注樣本形成樣本訓練庫,以樣本訓練庫為樣本集訓練檢索模型;S4、通過檢索模型從樣本池中檢索出更多的負樣本再次進行標注,并匯入樣本訓練庫,形成最終的訓練集。本發明采用計算特征距離及圖片檢索的方式快速抽取樣本池中的負樣本,在保持模型精度的前提下,大幅度降低標注時間,節約成本,利于工業智能算法的多產線推廣。
技術領域
本發明涉及計算機技術領域,特別涉及一種基于主動學習的樣本標注方法。
背景技術
在工業智能算法中,數據是保證模型精度的一個很重要的因素。為了保證模型具有持續穩定的性能,必須在不同產線部署的同時收集訓練樣本,并且持續訓練模型,而隨著模型的大范圍部署,將產生大量的待標注樣本,標注這些樣本將耗費昂貴的人工成本并影響算法的上線時間。
發明內容
為解決上述問題,本發明提供了一種基于主動學習的樣本標注方法。
本發明采用以下技術方案:
一種基于主動學習的樣本標注方法,包括如下步驟:
S1、從樣本池中隨機小樣本抽樣,作為主動學習的初始數據集并標注,得到初始標注樣本;
S2、采用度量學習計算初始標注樣本與待標注樣本的特征距離,生成特征距離圖,遍歷特征距離圖,在樣本池中尋找與初始標注樣本距離小于閾值的樣本并抽取出來;
S3、將抽取出來的樣本再次進行標注并匯入初始標注樣本形成樣本訓練庫,以樣本訓練庫為樣本集訓練檢索模型;
S4、通過檢索模型從樣本池中檢索出更多的負樣本再次進行標注,并匯入樣本訓練庫,形成最終的訓練集。
進一步地,步驟S2采用余弦相似度來計算所述特征距離,具體如下:
其中,similarity表示特征距離,A為初始標注樣本集,B為待標注樣本集。
進一步地,所述閾值為0.95-0.98。
進一步地,所述檢索模型為Re-ID模型。
進一步地,步驟S4中的所述檢索過程具體為:以負樣本作為檢索圖片,所述檢索模型從樣本池中挑選出與所述檢索圖片最相似即特征距離最近的前n張圖,然后對檢索出來的前n張圖進行簡單的清洗。
進一步地,所述n的取值為5-15。
采用上述技術方案后,本發明與背景技術相比,具有如下優點:
本發明采用計算特征距離及圖片檢索的方式快速抽取樣本池中的負樣本,在保持模型精度的前提下,大幅度降低標注時間,節約成本,有利于工業智能算法的多產線推廣。
附圖說明
圖1為本發明的流程示意圖;
圖2為本發明實施例的檢索示例圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
實施例
如圖1所示,一種基于主動學習的樣本標注方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所廈門數據智能研究院,未經中國科學院計算技術研究所廈門數據智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011186817.4/2.html,轉載請聲明來源鉆瓜專利網。





