[發明專利]模型訓練方法及裝置、存儲介質、計算設備在審
| 申請號: | 202011415641.5 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112784677A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 段魁;蔡濤;陳新澤;黃冠;都大龍 | 申請(專利權)人: | 上海芯翌智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/08;G06N3/04 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張振軍 |
| 地址: | 200434 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 存儲 介質 計算 設備 | ||
一種模型訓練方法及裝置、存儲介質、計算設備,模型訓練方法包括:將訓練數據輸入至構建好的基準模型和老師模型,基準模型的網絡層數小于老師模型的網絡層數;獲取基準模型針對訓練數據的第一輸出結果和老師模型針對訓練數據的第二輸出結果;基于每一類別的第一分類概率生成非該類別的第三分類概率,以及基于每一類別第二分類概率生成非該類別的第四分類概率;利用每一類別下的第一概率分布和第二概率分布計算KL散度,以及計算基準模型自身的誤差;利用KL散度以及基準模型自身的誤差在基準模型中進行反向傳播,以用于調整基準模型的網絡參數。本發明技術方案能夠提升模型分類效果的準確性和實時性。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種模型訓練方法及裝置、存儲介 質、計算設備。
背景技術
對于數據的特征提取和分類,通常是利用深度網絡模型來實現的,尤其 是行人屬性數據。行人屬性就像每個人隨身攜帶的特性,好的模型可以極大 的提升其應用場景。
目前市面上主流的行人屬性模型基本上是通過攝像頭采集視頻,通過行 人檢測模塊得到行人框,再通過屬性識別模塊得到行人屬性。
但是,目前的人體屬性模型往往在人體人檢測模型之后,較依賴于檢測 框,而實際場景比較復雜,人體檢測模型的效果很難保證,導致在人體部分 缺失或者誤檢人體的情況下,行人屬性預測效果很不理想(在大量現有開源 接口上做過實驗得出此結論)。其二,市面上的行人屬性模型往往在要求準確 率高的同時犧牲實時性,反之亦然。其三,行人屬性模型在跨域場景下泛化 力不強。
發明內容
本發明解決的技術問題是如何通過模型訓練提升模型分類效果的準確性 和實時性。
為解決上述技術問題,本發明實施例提供一種模型訓練方法,模型訓練 方法包括:將訓練數據輸入至構建好的基準模型和老師模型,所述基準模型 的網絡層數小于所述老師模型的網絡層數;獲取所述基準模型針對所述訓練 數據的第一輸出結果和老師模型針對所述訓練數據的第二輸出結果,所述第 一輸出結果包括針對每一類別的第一分類概率,所述第二輸出結果包括針對 每一類別第二分類概率;基于每一類別的第一分類概率生成非該類別的第三 分類概率,以及基于每一類別第二分類概率生成非該類別的第四分類概率, 以得到每一類別的第一概率分布和第二概率分布,所述第一概率分布包括各 個類別及其第一分類概率、非該類別及其第三分類概率,所述第二概率分布 包括各個類別及其第二分類概率、非該類別及其概率;利用每一類別下的第 一概率分布和第二概率分布計算KL散度,以及計算所述基準模型自身的誤差; 利用所述KL散度以及所述基準模型自身的誤差在所述基準模型中進行反向 傳播,以用于調整所述基準模型的網絡參數。
可選的,所述利用所述KL散度以及所述基準模型自身的誤差在所述基準 模型中進行反向傳播包括:計算所述KL散度與第一權重的乘積以及所述基準 模型自身的誤差與第二權重的乘積之和,以作為響應誤差;利用所述響應誤 差在所述基準模型中進行反向傳播。
可選的,所述計算所述基準模型自身的誤差包括:采用Focal loss計算所 述基準模型自身的誤差。
可選的,所述計算所述基準模型自身的誤差包括:獲取所述訓練數據針 對每一類別的樣本比例,所述樣本比例為包含該類別的樣本數與在該類別下 有效樣本總數量的比值;根據所述第一輸出結果計算所述基準模型的原始誤 差;將所述原始誤差與所述樣本比例進行加權,以得到所述準模型自身的誤 差。
可選的,所述將訓練數據輸入至構建好的基準模型和老師模型之前還包 括:獲取原始樣本數據,所述原始樣本數據為標注好的行人圖像,所述原始 樣本數據中包括關鍵點;根據所述原始樣本數據的關鍵點的坐標,將行人的 上半身圖像或下半身圖像進行隨機擦除,并更改所述行人圖像中的屬性值, 以得到所述訓練數據。
可選的,利用行人重識別模型作為人體模型的預訓練模型,所述基準模 型中網絡架構的Backbone中的網絡參數是直接調用所述行人重識別模型中的 網絡參數的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海芯翌智能科技有限公司,未經上海芯翌智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011415641.5/2.html,轉載請聲明來源鉆瓜專利網。





