[發明專利]模型訓練方法、裝置和電子設備在審
| 申請號: | 202011106420.X | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112241761A | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 葛煜坤 | 申請(專利權)人: | 北京字跳網絡技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 泰和泰律師事務所 51219 | 代理人: | 祝海燕 |
| 地址: | 100190 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 電子設備 | ||
1.一種模型訓練方法,其特征在于,包括:
將待識別圖像導入包括歸一化層的待訓練模型,得到由所述歸一化層中的節點生成的概率值,其中,節點與采用屬性值表征的類別對應,節點生成的概率值用于表征待識別圖像屬于該節點對應的類別的概率,其中,所述待識別圖像標記有標簽;
從歸一化層的節點中,選取候選節點;
基于選取出的候選節點生成的概率值和所述標簽,生成損失函數值;
基于所述損失函數值,調整所述待訓練模型的參數。
2.根據權利要求1所述的方法,其特征在于,所述基于選取出的候選節點生成的概率值和所述標簽,生成損失函數值,包括:
確定所述歸一化層中的節點生成的最高概率值;
根據所述最高概率值,確定候選節點。
3.根據權利要求2所述的方法,其特征在于,所述根據所述最高概率值,確定候選節點,包括:
根據生成所述最高概率值的節點和預設的波動范圍值,確定候選節點。
4.根據權利要求1所述的方法,其特征在于,所述基于選取出的候選節點生成的概率值和所述標簽,生成損失函數值,包括:
根據歸一化層中節點生成的概率值的概率分布,確定候選節點。
5.根據權利要求1-3中任一項所述的方法,其特征在于,所述基于所述損失函數值,調整所述待訓練模型的參數,包括:
將候選節點生成的概率值,進行歸一化,得到歸一化概率值;
將候選節點對應的屬性值和歸一化概率值的期望,確定為識別結果;
基于識別結果與待識別圖像的標簽,生成損失函數值。
6.根據權利要求1-3中任一項所述的方法,其特征在于,所述基于選取出的候選節點生成的概率值和所述標簽,生成損失函數值,包括:
根據候選節點生成的概率值,生成區間約束損失項,其中,所述區間約束損失項與候選節點生成的概率值之和負相關;
基于所述區間約束損失項,生成所述損失函數值。
7.根據權利要求1所述的方法,其特征在于,所述將待識別圖像導入包括歸一化層的待訓練模型,得到由所述歸一化層中的節點生成的概率值,包括:
將待識別圖像導入特征提取層,以及將特征提取層的輸出導入全連接層,其中,特征提取層的輸出與全連接層的輸入連通;
將全連接層的輸出,導入歸一化層,得到由所述歸一化層中的節點生成概率值。
8.根據權利要求1所述的方法,其特征在于,所述基于選取出的候選節點生成的概率值和所述標簽,生成損失函數值,包括:
基于歸一化層中節點生成的概率值,生成交叉熵損失值;
基于所述交叉熵損失值和候選節點生成的概率值,生成所述損失值。
9.一種模型訓練裝置,其特征在于,包括:
第一生成單元,用于將待識別圖像導入包括歸一化層的待訓練模型,得到由所述歸一化層中的節點生成的概率值,其中,節點與采用屬性值表征的類別對應,節點生成的概率值用于表征待識別圖像屬于該節點對應的類別的概率,其中,所述待識別圖像標記有標簽;
選取單元,用于從歸一化層的節點中,選取候選節點;
第二生成單元,用于基于選取出的候選節點生成的概率值和所述標簽,生成損失函數值;
調整單元,用于基于所述損失函數值,調整所述待訓練模型的參數。
10.一種電子設備,其特征在于,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-8中任一所述的方法。
11.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-8中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字跳網絡技術有限公司,未經北京字跳網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011106420.X/1.html,轉載請聲明來源鉆瓜專利網。





