[發明專利]一種基于對抗三元組損失的零樣本知識蒸餾方法及系統在審
| 申請號: | 202210401592.2 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114972904A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 付瑩;王子淳 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/764;G06V10/778;G06V10/82 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗 三元 損失 樣本 知識 蒸餾 方法 系統 | ||
1.一種基于對抗三元組損失的零樣本知識蒸餾方法,其特征在于,包括以下步驟:
步驟1:預訓練;
首先將收集好的圖像訓練集進行分類標注,然后選擇合適的卷積神經網絡模型;將訓練集中的所有圖像分批次送入隨機初始化的卷積神經網絡中,計算預測值與真實標簽的交叉熵損失;然后計算卷積神經網絡中各參數相對于損失的梯度,利用隨機梯度下降法更新模型參數得到訓練好的教師模型;
步驟2:模型反演;
首先,將預訓練階段得到的教師模型參數凍結,使其不再更新參數值;然后,使用隨機參數初始化生成器和學生模型,其中,生成器根據給定條件產生合成數據,學生模型通過學習教師模型區分生成器的生成數據的不同類別進行訓練;生成器試圖產生盡可能接近真實的數據,相應地,學生模型試圖完美分辨不同類別的數據,并盡量與教師模型的輸出一致;輸入訓練好的初步生成算法模型,生成對應初步生成圖像并儲存;
步驟3:模型訓練;
學生模型通過學習教師模型區分生成器的生成數據的不同類別進行訓練;學生模型試圖完美分辨不同類別的數據,并盡量與教師模型的輸出一致;輸入訓練好的初步生成算法模型,生成對應初步生成圖像并儲存;使用生成圖像輸入到教師模型和學生模型,計算教師-學生匹配損失,訓練并改善學生模型;最后將訓練好的學生模型導出部署。
2.如權利要求1所述的一種基于對抗三元組損失的零樣本知識蒸餾方法,其特征在于,步驟1包括以下步驟:
步驟1.1:將訓練數據集中的圖像進行分類標注;
對訓練集中所有圖像分別進行標注;每張圖像給定一個預先規定好的類別集合中的一個標簽,將圖像和標簽對{(x,y)}N存儲,用于后續訓練;其中,x表示圖像,y表示類別標簽,N表示樣本數量;
步驟1.2:使用訓練集分批抽取數據訓練,初步生成教師模型;
首先,從訓練數據集中隨機選取一批次圖像和標簽對{(x,y)}n,并將其對應圖像數據矩陣進行歸一化,將圖像輸入教師模型;n表示隨機抽取的樣本數量,n<N;
然后,教師模型輸出一張不同類別的預測概率結果y';其中,預測結果的概率數與標注訓練集的總類別數碼一致,即,輸出的解空間為[0,(c-1)]上的所有整數,每個整數代表一種目標類別,c為目標類別的總數;
之后,將模型輸出的類別概率預測結果y'與真實的類別標簽y進行對比,計算交叉熵損失函數并將損失值反向傳播,更新初步生成算法模型中的參數;
不斷重復上述過程,直到滿足設定的迭代次數后,將網絡的結構與模型參數進行保存,得到訓練完成的初步生成算法模型結構和參數。
3.如權利要求2所述的一種基于對抗三元組損失的零樣本知識蒸餾方法,其特征在于,步驟1.2中,最小化交叉熵損失函數公式為:
其中,θ是教師模型T的模型參數,T的輸出為各類別的概率預測;x∈RB×H×W,x指輸入的圖像數據,B、H和W分別代表圖像的通道數、高度和寬度;yi為對應第i個類別概率,yi中取1的位置代表該點為相應類別的感興趣目標,0代表不是;Tθ(x)i為教師模型對第i類感興趣目標的預測置信度;c為目標類別的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210401592.2/1.html,轉載請聲明來源鉆瓜專利網。





