[發明專利]模型訓練方法、裝置、設備及計算機可讀介質在審
| 申請號: | 202110105965.7 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112801178A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 翟步中 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 曾軍;黃巍 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 設備 計算機 可讀 介質 | ||
1.一種模型訓練方法,其特征在于,包括:
獲取第一訓練樣本和第二訓練樣本,其中,所述第一訓練樣本在數據采集時的采樣概率大于所述第二訓練樣本的采樣概率;
利用所述第一訓練樣本對第一模型進行訓練,以調整所述第一模型的初始化參數,得到第二模型;
利用所述第一訓練樣本和所述第二訓練樣本訓練所述第二模型,以將所述第二模型作為預訓練模型,并通過采樣概率不同的訓練樣本對所述第二模型的參數進行調整,得到第三模型,其中,對所述第二模型的參數的調整幅度小于對所述第一模型的初始化參數的調整幅度,所述第三模型對目標類別的物品的識別準確度大于所述第二模型對所述目標類別的物品的識別準確度,所述第二訓練樣本的類別包括所述目標類別。
2.根據權利要求1所述的方法,其特征在于,利用所述第一訓練樣本對第一模型進行訓練,以調整所述第一模型的初始化參數,得到第二模型包括:
通過所述第一訓練樣本對所述第一模型內各網絡層中的參數進行初始化,得到所述初始化參數,并根據所述第一模型對所述第一訓練樣本的識別結果和所述第一訓練樣本的預標記分類結果的差異調整所述初始化參數;
在所述第一模型對測試數據的識別準確度達到第一閾值的情況下,將所述第一模型作為所述第二模型,其中,所述測試數據屬于所述第一訓練樣本中包括的數據類別的至少一種;
在所述第一模型對所述測試數據的識別準確度未達到所述第一閾值的情況下,繼續使用所述第一訓練樣本對所述第一模型進行訓練,以繼續調整所述第一模型內各網絡層中的參數的數值,直至所述第一模型對所述測試數據的識別準確度達到所述第一閾值。
3.根據權利要求1所述的方法,其特征在于,利用所述第一訓練樣本和所述第二訓練樣本訓練所述第二模型,以將所述第二模型作為預訓練模型,并通過采樣概率不同的訓練樣本對所述第二模型的參數進行調整,得到第三模型包括:
從所述第一訓練樣本和所述第二訓練樣本中各提取相同數量的訓練樣本,組成第三訓練樣本,其中,所述第三訓練樣本中的每條訓練樣本包括從所述第一訓練樣本中提取出來的一條訓練樣本和從所述第二訓練樣本中提取出來的一條訓練樣本;
將所述第三訓練樣本分為支持集和詢問集;
將所述支持集輸入所述第二模型進行訓練,并根據所述第二模型對所述支持集的識別結果和所述支持集的預標記分類結果的差異調整所述第二模型的參數;
在所述第二模型對所述詢問集的識別準確度達到第二閾值的情況下,將所述第二模型作為所述第三模型;
在所述第二模型對所述詢問集的識別準確度未達到所述第二閾值的情況下,繼續使用所述詢問集對所述第二模型進行訓練,以繼續調整所述第二模型內各網絡層中的參數的數值,直至所述第二模型對所述詢問集的識別準確度達到所述第二閾值。
4.根據權利要求3所述的方法,其特征在于,得到所述第三模型之后,所述方法還包括:
將所述第一訓練樣本和所述第二訓練樣本隨機混合,得到第四訓練樣本;
將所述第四訓練樣本輸入所述第三模型進行訓練,并根據所述第三模型對所述第四訓練樣本的識別結果和所述第四訓練樣本的預標記分類結果的差異調整所述第三模型的參數;
在所述第三模型對測試數據的識別準確度達到第三閾值的情況下,將所述第三模型作為第四模型,其中,所述第四模型對所述目標類別的物品的識別準確度大于所述第三模型對所述目標類別的物品的識別準確度,所述測試數據指示的物品的所屬類別包括所述目標類別;
在所述第三模型對所述測試數據的識別準確度未達到所述第三閾值的情況下,繼續使用所述第四訓練樣本對所述第三模型進行訓練,以繼續調整所述第三模型內各網絡層中的參數的數值,直至所述第三模型對所述詢問集的識別準確度達到所述第三閾值,其中,對第三模型的參數的調整幅度小于對所述第二模型的參數的調整幅度。
5.根據權利要求4所述的方法,其特征在于,調整所述第三模型內各網絡層中的參數的數值,直至所述第三模型對所述詢問集的識別準確度達到所述第三閾值包括:
利用目標損失函數確定損失值,其中,所述損失值用于表示所述第三模型對所述測試數據的識別結果和所述測試數據的實際類別標簽之間的準確度的差異;
利用所述損失值調整所述第三模型的參數,直至所述第三模型的輸出精度達到所述第三閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110105965.7/1.html,轉載請聲明來源鉆瓜專利網。





