[發(fā)明專利]梯度參數(shù)確定方法、裝置及計算機可讀存儲介質有效
| 申請?zhí)枺?/td> | 201710373287.6 | 申請日: | 2017-05-24 |
| 公開(公告)號: | CN107229968B | 公開(公告)日: | 2021-06-29 |
| 發(fā)明(設計)人: | 萬韶華 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 林錦瀾 |
| 地址: | 100085 北京市海淀區(qū)清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 梯度 參數(shù) 確定 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種基于卷積神經(jīng)網(wǎng)絡模型進行圖像識別的方法,其特征在于,所述方法應用于終端,所述方法包括:
通過待訓練的卷積神經(jīng)網(wǎng)絡模型包括的所有層對訓練圖像進行識別處理,得到第二預測類別概率;
確定所述第二預測類別概率與初始類別概率之間的差值,得到第二類別概率誤差;
基于所述第二類別概率誤差,通過所述卷積神經(jīng)網(wǎng)絡模型中位于指定全連接層的下一個卷積層采用指定梯度下降法確定第一梯度,所述指定全連接層位于所述卷積神經(jīng)網(wǎng)絡模型包括的多個卷積層之間的指定位置,所述指定全連接層的下一個卷積層靠近所述卷積神經(jīng)網(wǎng)絡模型的輸出層;
通過所述指定全連接層接收所述下一個卷積層傳遞的所述第一梯度;
通過所述指定全連接層確定第二梯度,所述第二梯度是基于第一類別概率誤差確定得到,所述第一類別概率誤差為第一預測類別概率與所述初始類別概率之間的誤差,所述第一預測類別概率是通過所述卷積神經(jīng)網(wǎng)絡模型中位于所述指定全連接層之上的多層對訓練圖像進行識別處理后得到;
將所述第一梯度與所述第二梯度進行求和運算,得到第三梯度;
將所述第三梯度確定為用于訓練所述卷積神經(jīng)網(wǎng)絡模型的梯度參數(shù);
基于所述第三梯度對所述卷積神經(jīng)網(wǎng)絡模型進行訓練,并基于完成訓練的卷積神經(jīng)網(wǎng)絡模型對待識別圖像進行圖像識別。
2.如權利要求1所述的方法,其特征在于,所述通過所述指定全連接層確定第二梯度,包括:
通過所述卷積神經(jīng)網(wǎng)絡模型中位于所述指定全連接層之上的多層對所述訓練圖像進行識別處理,得到所述第一預測類別概率;
確定所述第一預測類別概率與所述初始類別概率之間的差值,得到所述第一類別概率誤差;
基于所述第一類別概率誤差,通過所述指定全連接層采用指定梯度下降法確定所述第二梯度。
3.如權利要求1所述的方法,其特征在于,所述將所述第三梯度確定為用于訓練所述卷積神經(jīng)網(wǎng)絡模型的梯度參數(shù)之后,還包括:
確定所述第三梯度的梯度長度與指定系數(shù)之間的乘積,得到移動步長,并將所述指定全連接層的模型參數(shù),向所述第三梯度的梯度方向移動所述移動步長,所述指定系數(shù)為預先設置的任一系數(shù);
將所述第三梯度傳遞給所述指定全連接層的上一個卷積層,以對梯度參數(shù)進行傳遞。
4.如權利要求3所述的方法,其特征在于,當所述卷積神經(jīng)網(wǎng)絡模型包括的模型參數(shù)為初始模型參數(shù)時,所述初始模型參數(shù)為預先設置的任一參數(shù)。
5.一種基于卷積神經(jīng)網(wǎng)絡模型進行圖像識別的裝置,其特征在于,所述裝置為終端,所述裝置包括:
識別處理模塊,用于通過待訓練的卷積神經(jīng)網(wǎng)絡模型包括的所有層對訓練圖像進行識別處理,得到第二預測類別概率;
第三確定模塊,用于確定所述第二預測類別概率與初始類別概率之間的差值,得到第二類別概率誤差;
第四確定模塊,用于基于所述第二類別概率誤差,通過所述卷積神經(jīng)網(wǎng)絡模型中位于指定全連接層的下一個卷積層采用指定梯度下降法確定第一梯度,所述指定全連接層位于所述卷積神經(jīng)網(wǎng)絡模型包括的多個卷積層之間的指定位置,所述指定全連接層的下一個卷積層靠近所述卷積神經(jīng)網(wǎng)絡模型的輸出層;
接收模塊,用于通過所述指定全連接層接收所述下一個卷積層傳遞的所述第一梯度;
第一確定模塊,用于通過所述指定全連接層確定第二梯度,所述第二梯度是基于第一類別概率誤差確定得到,所述第一類別概率誤差為第一預測類別概率與所述初始類別概率之間的誤差,所述第一預測類別概率是通過所述卷積神經(jīng)網(wǎng)絡模型中位于所述指定全連接層之上的多層對訓練圖像進行識別處理后得到;
運算模塊,用于將所述接收模塊接收的所述第一梯度與所述第一確定模塊確定的所述第二梯度進行求和運算,得到第三梯度;
第二確定模塊,用于將所述運算模塊得到的所述第三梯度確定為用于訓練所述卷積神經(jīng)網(wǎng)絡模型的梯度參數(shù);
所述裝置還包括用于執(zhí)行以下步驟的模塊:
基于所述第三梯度對所述卷積神經(jīng)網(wǎng)絡模型進行訓練,并基于完成訓練的卷積神經(jīng)網(wǎng)絡模型對待識別圖像進行圖像識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經(jīng)北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710373287.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





