[發明專利]適用于長尾分布數據集的神經網絡的訓練方法和裝置在審
| 申請號: | 202010851530.2 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112101544A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 丁貴廣;項劉宇 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06K9/62 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 適用于 長尾 分布 數據 神經網絡 訓練 方法 裝置 | ||
本發明提出一種適用于長尾分布數據集的神經網絡的訓練方法和裝置,神經網絡包括:特征提取網絡,分類器,類別梯度重加權網絡,訓練方法包括:獲取訓練樣本集;特征提取網絡對訓練樣本集進行特征提取得到特征,并通過分類器對特征進行分類,根據分類結果建立損失函數;根據損失函數計算特征提取網絡中各個神經元在訓練樣本的梯度;在神經網絡訓練的反向傳播的過程中,類別梯度重加權網絡計算訓練樣本的重加權梯度權重,根據重加權梯度權重調整屬于不同類別的訓練樣本的梯度。由此,解決神經網絡在長尾分布的訓練數據下識別準確率下降問題,緩解特征提取網絡過擬合現象,提高深度神經網絡在長尾分布下的識別準確率和魯棒性。
技術領域
本發明涉及人工智能技術領域與深度學習技術領域,尤其涉及一種適用于長尾分布數據集的神經網絡的訓練方法和裝置。
背景技術
隨著深度學習和神經網絡的快速發展,深度學習技術被廣泛應用于計算機視覺應用中,如目標識別、目標檢測、語義分割等。而訓練一個神經網絡往往需要數據量充足、數據分布均衡的訓練數據。而收集這樣的訓練數據往往需要耗費大量的人力和物力。在早期的基于神經網絡的目標識別算法中,往往使用數據均衡且數據量較小的數據集,如MNIST和CIFAR。前者是手寫數字識別訓練數據,后者則是通用目標識別訓練數據,其類別分布均是均衡的,即每個類別的樣本具有相同的數量。而這樣的訓練數據往往與實際場景是脫節的。
實際應用上述訓練數據的一大區別是,在實際應用中,自然界的語義概念等的分布往往是服從長尾分布的,即少數訓練數據占據了絕大多數的出現次數(頭部數據類別),而大多數訓練數據則出現頻率較低(尾部數據類別),這樣分布會導致在收集訓練數據的過程中往往會引入長尾分布效應,造成訓練數據類別分布的不均衡。而在傳統的分布均衡的數據集上提出的深度學習算法則往往難以處理長尾分布下的目標識別問題。由于長尾分布的普遍性,在長尾分布下的深度學習方法也相繼被研究者們提出。
針對長尾分布下的神經網絡訓練方法主要可以分為三大類:重加權法、重采樣法和知識遷移法。
其中,重加權法主要通過提出與類別數量相關的損失函數,從而降低長尾分布帶來的數據不均衡的影響。具體而言,由于長尾分布中的頭部數據類別占據了數據量的大部分,而尾部數據類別占據了較小的部分,因此在訓練集中頭部數據類別對應的分類器神經元往往占據了主導地位,而尾部數據對應的分類器神經元被相應的抑制。而重加權方法則是通過修改損失函數,削弱頭部數據類別的主導地位,即為頭部類別的樣本對應的損失函數分配一個較小的權重,而為尾部類別樣本對應的損失函數分配一個較大的權重,最終通過端到端的訓練完成對長尾分布數據的識別任務。由于重加權的方法往往是在損失函數上進行修改,針對極度不均衡的長尾分布往往難以有較好的效果。
重采樣法則通過設計類別均衡的采樣策略對長尾分布的目標識別問題進行處理。由于神經網絡的訓練過程大多是基于小批量的,因此每次訓練過程中都需要對整個訓練數據進行小批量的采樣,從而得到小批量的訓練數據進行神經網絡的訓練。而由于對長尾分布的訓練數據的采樣過程中,尾部數據數量較少,因此很難被采樣到,而頭部數據由于數量眾多,被采樣到的頻率則會過高。重采樣技術則通過增加尾部數據被采樣到的概率,或降低頭部數據被采樣到的概率,較為常見的做法按照相同概率對每個類別進行采樣,而不是按照相同概率對每個樣本進行采樣,從而緩解長尾分布下的類別不均衡帶來的挑戰,但與此同時,也會因為重采樣帶來尾部數據過擬合或頭部數據信息丟失的問題。
知識遷移法則是利用頭部數據的豐富隱含的知識借以輔助尾部數據的訓練,首先利用神經網絡的頭部數據進行訓練,從而隱式地獲取數據類別的分布信息,進而對數據量稀疏的尾部數據進行增強。具體形式包括訓練從頭部類別到尾部類別的分類器映射,或借助頭部數據和預訓練網絡產生“偽”尾部數據輔助神經網絡訓練。這類方法往往需要數據集的類別具有較高的相似性,才能夠完成較高質量的知識遷移。
上述三種方法大多都能夠緩解神經網絡在長尾分布下的識別困難,但也都有各自的局限性,同時針對神經網絡本身的特點分析不足。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010851530.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





