[發明專利]模型訓練方法、裝置、設備及存儲介質有效
| 申請號: | 201810759307.8 | 申請日: | 2018-07-11 |
| 公開(公告)號: | CN109034218B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 平安;王希;何光宇;張立東 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張芳;臧建明 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本發明實施例提供一種模型訓練方法、裝置、設備及存儲介質,其中,該方法包括:獲取第一圖像數據集;對所述第一圖像數據集中的圖像進行加權求和處理,獲得增量圖像;基于所述增量圖像和所述第一圖像數據集,訓練獲得第一模型。本發明實施例能夠保證在圖像特征清晰不變的情況下,大規模、有效的增量圖像。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種模型訓練方法、裝置、設備及存儲介質。
背景技術
隨著深度神經網絡的興起,人工智能(簡稱AI)已經可以像人類一樣識別并且認知圖像屬性,如斯坦福大學的研究者通過13萬張皮膚疾病圖像訓練出一個診斷皮膚癌的AI算法,并且診斷結果達專家水平。
目前在深度神經網絡的學習方面,除了要求具有大體量的訓練數據以外,還有一個很重要的前提是需要有足夠量的標注數據。以醫學領域為例,在醫學圖像處理上面,圖像數據集標注不只是診斷報告,還需要高質量的精細的標注,如圖像層面及病灶類型和區域等標注,標注的準確性關乎結果的準確性。因為醫學圖像處理需要醫學的專業知識,就是說醫生對這些病比較熟悉他才能標注,一般人是很難標注的,而且標注的成本還很高。由此可見一般,目前在各個領域中有效標注的圖像數據集都是很有限的,那么如何利用有限的圖像數據集得到準確的深度神經網絡模型就顯得十分重要。
發明內容
本發明實施例提供一種模型訓練方法、裝置、設備及存儲介質,用以在保證在圖像特征清晰不變的情況下,大規模、有效的增量圖像,從而基于增量圖像得到準確的模型。
本發明實施例第一方面提供一種模型訓練方法,包括:
獲取第一圖像數據集;
對所述第一圖像數據集中的圖像進行加權求和處理,獲得增量圖像;
基于所述增量圖像和所述第一圖像數據集,訓練獲得第一模型。
在一種可能的設計中,所述對所述第一圖像數據集中的圖像進行加權求和處理,獲得增量圖像,包括:
對所述第一圖像數據集中的圖像采用相同的加權值進行加權求和處理,獲得增量圖像,并使得所有加權求和的圖像的加權值之和為1。
在又一種可能的設計中,所述對所述第一圖像數據集中的圖像進行加權求和處理,獲得增量圖像,包括:
從所述第一圖像數據集中獲取多組圖像樣本,使得同一組圖像樣本中的圖像只包括相同的標簽;
針對每組圖像樣本,獲取組內的圖像進行加權求和處理得到增量圖像。
在又一種可能的設計中,所述對所述第一圖像數據集中的圖像進行加權求和處理,獲得增量圖像,包括:
從所述第一圖像數據集中獲取多組圖像樣本,使得同一組圖像樣本中至少包括兩種標簽的圖像;
針對每組圖像樣本,從組內獲取具有不同標簽的圖像進行加權求和,獲得增量圖像,其中所述增量圖像的標簽為加權求和時權重值最大的圖像的標簽。
在又一種可能的設計中,所述基于所述增量圖像和所述第一圖像數據集,訓練獲得第一模型之后,所述方法還包括:
獲取第二圖像數據集,其中所述第二圖像數據集和所述第一圖像數據集之間的相似度大于預設閾值;
基于所述第二圖像數據集,對所述第一模型進行遷移學習處理,獲得第二模型。
在又一種可能的設計中,所述基于所述第二圖像數據集,對所述第一模型進行遷移學習處理,獲得第二模型之后,所述方法還包括:
從所述第二模型中提取所述第二圖像數據集的特征數據;
基于所述特征數據訓練獲得第三模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810759307.8/2.html,轉載請聲明來源鉆瓜專利網。





