[發明專利]一種基于主動學習的樣本標注方法在審
| 申請號: | 202011186817.4 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112308139A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 陳能;安竹林;徐勇軍;程坦 | 申請(專利權)人: | 中國科學院計算技術研究所廈門數據智能研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/532;G06F16/583 |
| 代理公司: | 廈門致群財富專利代理事務所(普通合伙) 35224 | 代理人: | 劉兆慶 |
| 地址: | 361000 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主動 學習 樣本 標注 方法 | ||
1.一種基于主動學習的樣本標注方法,其特征在于:包括如下步驟:
S1、從樣本池中隨機小樣本抽樣,作為主動學習的初始數據集并標注,得到初始標注樣本;
S2、采用度量學習計算初始標注樣本與待標注樣本的特征距離,生成特征距離圖,遍歷特征距離圖,在樣本池中尋找與初始標注樣本距離小于閾值的樣本并抽取出來;
S3、將抽取出來的樣本再次進行標注并匯入初始標注樣本形成樣本訓練庫,以樣本訓練庫為樣本集訓練檢索模型;
S4、通過檢索模型從樣本池中檢索出更多的負樣本再次進行標注,并匯入樣本訓練庫,形成最終的訓練集。
2.如權利要求1所述的一種基于主動學習的樣本標注方法,其特征在于:步驟S2采用余弦相似度來計算所述特征距離,具體如下:
其中,similarity表示特征距離,A為初始標注樣本集,B為待標注樣本集。
3.如權利要求1所述的一種基于主動學習的樣本標注方法,其特征在于:所述閾值為0.95-0.98。
4.如權利要求1所述的一種基于主動學習的樣本標注方法,其特征在于:所述檢索模型為Re-ID模型。
5.如權利要求1所述的一種基于主動學習的樣本標注方法,其特征在于:步驟S4中的所述檢索過程具體為:以負樣本作為檢索圖片,所述檢索模型從樣本池中挑選出與所述檢索圖片最相似即特征距離最近的前n張圖,然后對檢索出來的前n張圖進行簡單的清洗。
6.如權利要求5所述的一種基于主動學習的樣本標注方法,其特征在于:所述n的取值為5-15。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所廈門數據智能研究院,未經中國科學院計算技術研究所廈門數據智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011186817.4/1.html,轉載請聲明來源鉆瓜專利網。





