[發明專利]基于遷移學習的深度神經網絡的訓練方法和裝置在審
| 申請號: | 202010590593.7 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111783949A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 李興建;熊昊一;安昊哲;竇德景 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 遷移 學習 深度 神經網絡 訓練 方法 裝置 | ||
本申請實施例公開了一種基于遷移學習的深度神經網絡的訓練方法和裝置,涉及人工智能技術,尤其涉及遷移學習、深度學習和神經網絡技術領域。具體實現方案為:獲取待訓練的深度神經網絡,所述深度神經網絡包括預訓練的圖像特征提取網絡和未訓練的圖像處理網絡;對所述圖像特征提取網絡和圖像處理網絡進行訓練;在訓練過程中,對所述圖像處理網絡的訓練后參數進行重新調整。本申請實施例可以提高特征提取網絡的特征提取能力。
技術領域
本申請涉及人工智能技術,尤其涉及遷移學習、深度學習和神經網絡技術領域。
背景技術
近些年深度學習和遷移學習取得了巨大的技術突破和快速的應用普及,遷移學習能夠借助大數據充分訓練的源模型,提升業務中小規模樣本集的訓練效果。基于遷移學習的深度神經網絡包括遷移而來的特征提取網絡和適用于目標任務的處理網絡。
在對基于遷移學習的深度神經網絡進行訓練時,在整個網絡的范圍內針對目標任務微調參數,由于預訓練的特征提取網絡本身有一定的遷移能力,在微調(fine-tuning)早期甚至之前就可以給目標任務提供相當有價值的深度特征,此時目標網絡很容易快速擬合訓練樣本,導致用于更新參數的梯度從反向傳播的源頭減弱甚至消失,無法充分的更新特征提取網絡,使之更適配分類任務。
簡而言之,上述深度神經網絡過快擬合的問題導致了特征提取網絡的欠擬合。深度學習的主要優勢就在于深層的特征提取網絡有強大的特征學習能力,這種欠擬合則影響了遷移學習任務中特征提取網絡對目標任務的特征學習。
發明內容
本申請實施例提供了一種基于遷移學習的深度神經網絡的訓練方法、裝置、設備和可讀存儲介質,以訓練深度神經網絡。
第一方面,本申請實施例提供了一種基于遷移學習的深度神經網絡的訓練方法,包括:
獲取待訓練的深度神經網絡,所述深度神經網絡包括預訓練的圖像特征提取網絡和未訓練的圖像處理網絡;
對所述圖像特征提取網絡和圖像處理網絡進行訓練;
在訓練過程中,對所述圖像處理網絡的訓練后參數進行重新調整。
第二方面,本申請實施例還提供了一種基于遷移學習的深度神經網絡的訓練裝置,包括:
獲取模塊,用于獲取待訓練的深度神經網絡,所述深度神經網絡包括預訓練的圖像特征提取網絡和未訓練的圖像處理網絡;
訓練模塊,用于對所述圖像特征提取網絡和圖像處理網絡進行訓練;
重新調整模塊,用于在訓練過程中,對所述圖像處理網絡的訓練后參數進行重新調整。
第三方面,本申請實施例提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行任一實施例所提供的一種基于遷移學習的深度神經網絡的訓練方法。
第四方面,本申請實施例提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行任一實施例所提供的一種基于遷移學習的深度神經網絡的訓練方法。
根據本申請的技術可以提高特征提取網絡的特征提取能力。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本申請的限定。其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010590593.7/2.html,轉載請聲明來源鉆瓜專利網。





