[發明專利]神經網絡模型的訓練方法及裝置、電子設備、存儲介質在審
| 申請號: | 202011019263.9 | 申請日: | 2020-09-24 |
| 公開(公告)號: | CN112149825A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 秦永強;李素瑩;紀雙西;高達輝 | 申請(專利權)人: | 創新奇智(上海)科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 鐘揚飛 |
| 地址: | 201900 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 模型 訓練 方法 裝置 電子設備 存儲 介質 | ||
本申請提供一種神經網絡模型的訓練方法及裝置、電子設備、計算機可讀存儲介質,方法包括:將兩個批次的樣本數據輸入兩個神經網絡模型,并依據神經網絡模型輸出的預測類別信息將樣本數據劃分至干凈數據集和不干凈數據集;將兩個批次的樣本數據對調后,分別訓練兩個神經網絡模型,且在訓練過程區分干凈數據集中的樣本數據和不干凈數據集中的樣本數據。本申請實施例中,兩個神經網絡模型采用完全不同的樣本數據進行訓練,使得兩個神經網絡模型保持了一定的獨立性,從而避免訓練過程中學習到相同的錯誤信息。在樣本數據存在噪聲標簽的情況下,這種訓練方式可以提高神經網絡模型的魯棒性。
技術領域
本申請涉及深度學習技術領域,特別涉及一種神經網絡模型的訓練方法及裝置、電子設備、計算機可讀存儲介質。
背景技術
神經網絡模型的訓練過程需要大量高質量的標注數據。在實際應用時,為樣本數據添加標簽需要大量時間和人力成本,而且人工標注過程可能出錯。為保證神經網絡模型的應用效果,通常需對樣本數據的標簽進行人工核查,這又是個耗時且耗費人力成本的過程。如果可以利用含有噪聲標簽的標注數據對神經網絡模型進行訓練、同時避免噪聲標簽帶來的負面影響,可以提高訓練效率,降低訓練成本。
發明內容
本申請實施例的目的在于提供一種神經網絡模型的訓練方法及裝置、電子設備、計算機可讀存儲介質,用于利用含有噪聲標簽的標注數據訓練神經網絡模型,并避免神經網絡模型對噪聲標簽的過擬合。
一方面,本申請提供了一種神經網絡模型的訓練方法,包括:
從樣本數據集中選擇第一批次的樣本數據輸入第一神經網絡模型,獲得所述第一神經網絡模型輸出的預測類別信息;
從所述樣本數據集中選擇第二批次的樣本數據輸入第二神經網絡模型,獲得所述第二神經網絡模型輸出的預測類別信息;
針對每一樣本數據,基于所述預測類別信息擬合得到對應于所述樣本數據的高斯混合模型;
針對每一樣本數據,根據擬合得到的與高斯混合模型中真實高斯模型對應的權重參數,將所述樣本數據劃分至干凈數據集或不干凈數據集;
利用所述第一批次的樣本數據對所述第二神經網絡模型進行訓練;其中,在訓練過程中所述干凈數據集中樣本數據對應的損失計算方式,與所述不干凈數據集中樣本數據對應的損失計算方式不同;
利用所述第二批次的樣本數據對所述第一神經網絡模型進行訓練;其中,在訓練過程中所述干凈數據集中樣本數據對應的損失計算方式,與所述不干凈數據集中樣本數據對應的損失計算方式不同;
從所述樣本數據集中重新選擇兩個批次的樣本數據,重復上述訓練過程,直至所述第一神經網絡模型和所述第二神經網絡模型收斂。
在一實施例中,所述針對每一樣本數據,基于所述預測類別信息擬合得到對應于所述樣本數據的高斯混合模型,包括:
針對每一樣本數據,基于所述樣本數據的預測類別信息中對應于各類別的置信度,擬合得到所述高斯混合模型;其中,所述高斯混合模型包括對應于真實預測類別信息的真實高斯模型、對應于虛假預測類別信息的虛假高斯模型。
在一實施例中,所述針對每一樣本數據,根據擬合得到的與高斯混合模型中真實高斯模型對應的權重參數,將所述樣本數據劃分至干凈數據集或不干凈數據集,包括:
針對每一樣本數據,判斷擬合得到的與所述真實高斯模型對應的權重參數是否達到預設權重參數閾值;
如果是,將所述樣本數據劃分至所述干凈數據集;
如果否,將所述樣本數據劃分至所述不干凈數據集。
在一實施例中,所述利用所述第一批次的樣本數據對所述第二神經網絡模型進行訓練,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新奇智(上海)科技有限公司,未經創新奇智(上海)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011019263.9/2.html,轉載請聲明來源鉆瓜專利網。





