[發明專利]確定訓練樣本的方法及裝置、訓練深度學習模型的方法有效
| 申請號: | 202010904622.2 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112036491A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 張榮國;李新陽;王少康;陳寬 | 申請(專利權)人: | 北京推想科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06K9/34;G06N20/00 |
| 代理公司: | 北京布瑞知識產權代理有限公司 11505 | 代理人: | 秦衛中 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 訓練 樣本 方法 裝置 深度 學習 模型 | ||
本發明提供了一種確定訓練樣本的方法及裝置、訓練深度學習模型的方法。確定訓練樣本的方法包括:獲取第一待標注樣本集中的N個待標注樣本的特征向量,其中,N為正整數;根據N個待標注樣本的特征向量之間的差異性,從N個待標注樣本中確定M個待標注樣本,以對M個待標注樣本進行標注,獲得標注樣本集,其中M為正整數,并且M小于N。通過根據N個待標注樣本的特征向量之間的差異性選取待標注樣本,能夠更有效率地從待標注樣本集中篩選樣本進行標注,減少需要標注的訓練樣本的數量,以更有效地利用標注資源和提升深度學習模型的性能。
技術領域
本發明涉及深度學習技術領域,具體涉及一種確定訓練樣本的方法及裝置、訓練深度學習模型的方法。
背景技術
近年來,深度學習技術已經改變了計算機視覺,并且已經在大量面向消費者的產品中得到了應用。例如,在醫學影像領域,醫學圖像的分割對精度要求很高,得益于深度學習技術的發展,取得了超越傳統分割方法的優異效果,對于臨床的分析、診斷、治療及預后具有重要的意義。
但是,一種有效的深度學習模型,通常需要大量的高質量的標注好的訓練樣本,標記工作量大。而且,訓練樣本的標注是一項非常耗時耗力的工作,例如,分割標注任務需要人工勾畫目標的邊緣輪廓,醫學影像的標注更需要有相應的臨床知識才能標記準確,標注成本較高。
發明內容
有鑒于此,本發明實施例提供了一種確定訓練樣本的方法及裝置、訓練深度學習模型的方法,能夠更有效率地確定待標注樣本,減少需要標注的訓練樣本的數量,以更有效地利用標注資源和提升深度學習模型的性能。
根據本發明實施例的第一方面,提供一種確定訓練樣本的方法,包括:獲取第一待標注樣本集中的N個待標注樣本的特征向量,其中,N為正整數;根據N個待標注樣本的特征向量之間的差異性,從N個待標注樣本中確定M個待標注樣本,以對M個待標注樣本進行標注,獲得標注樣本集,其中M為正整數,并且M小于N。
在本發明的一個實施例中,標注樣本集包括第一標注樣本集,上述根據N個待標注樣本的特征向量之間的差異性,從N個待標注樣本中確定M個待標注樣本,以對M個待標注樣本進行標注,獲得標注樣本集,包括:將第一待標注樣本集中的第一樣本分別與其余每個待標注樣本進行特征相似度計算,獲得第一相似度結果,其中,第一樣本為第一待標注樣本集中的任意一個待標注樣本;根據第一相似度結果,從第一待標注樣本集中確定與第一樣本存在最大差異的至少一個第一訓練樣本,以對至少一個第一訓練樣本進行標注,獲得第一標注樣本集。
在本發明的一個實施例中,標注樣本集包括第一標注樣本集和標注樣本集,上述根據N個待標注樣本的特征向量之間的差異性,從N個待標注樣本中確定M個待標注樣本,以對M個待標注樣本進行標注,獲得標注樣本集,還包括:根據至少一個第一訓練樣本,得到第二待標注樣本集,其中第二待標注樣本集包括第一待標注樣本集中除至少一個第一訓練樣本之外的待標注樣本;根據特征向量,分別將第二待標注樣本集中的每個待標注樣本分別與第一標注樣本集中的每個標注樣本進行特征相似度計算,獲得第二相似度結果;根據第二相似度結果,從第二待標注樣本集中確定與第一標注樣本集存在最大差異的至少一個第二訓練樣本,以對至少一個第二訓練樣本進行標注,獲得第二標注樣本集。
在本發明的一個實施例中,特征相似度計算包括特征距離計算,上述分別將第二待標注樣本集中的每個待標注樣本與第一標注樣本集中的每個標注樣本進行特征相似度計算,獲得第二相似度結果,包括:分別計算第二待標注樣本集中的每個待標注樣本與第一標注樣本集中的每個標注樣本的特征距離之和,獲得第二相似度結果。
在本發明的一個實施例中,上述確定訓練樣本的方法還包括:根據M個訓練樣本中的每個訓練樣本的標識符,對M個訓練樣本進行去重處理,其中,上述對M個待標注樣本進行標注,獲得標注樣本集,包括:對去重后的訓練樣本進行標注,獲得標注樣本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京推想科技有限公司,未經北京推想科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010904622.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:相機增益的調整方法和裝置、掃描系統
- 下一篇:井間定位信號頻率估計方法





