[發(fā)明專利]一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置有效
| 申請?zhí)枺?/td> | 202110103858.0 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112836819B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計)人: | 宇哲倫 | 申請(專利權(quán))人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/0464 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 神經(jīng)網(wǎng)絡(luò) 模型 生成 方法 裝置 | ||
本發(fā)明實施例提供了一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置,方法包括:獲取預(yù)設(shè)結(jié)構(gòu)的第一神經(jīng)網(wǎng)絡(luò)模型;其中,第一神經(jīng)網(wǎng)絡(luò)模型包括至少一個批標準化BN層;基于目標樣本圖像和目標損失函數(shù),對第一神經(jīng)網(wǎng)絡(luò)模型進行模型訓(xùn)練,得到第二神經(jīng)網(wǎng)絡(luò)模型;其中,目標損失函數(shù)為基于原始損失函數(shù)和BN層的模型參數(shù)計算得到的;確定第二神經(jīng)網(wǎng)絡(luò)模型中除目標卷積核以外的網(wǎng)絡(luò)模型結(jié)構(gòu),作為第三神經(jīng)網(wǎng)絡(luò)模型;其中,目標卷積核為第二神經(jīng)網(wǎng)絡(luò)模型中對應(yīng)的BN層的模型參數(shù)的絕對值小于目標閾值的卷積核;基于第三神經(jīng)網(wǎng)絡(luò)模型,生成目標神經(jīng)網(wǎng)絡(luò)模型。如此,能夠降低目標神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)復(fù)雜度,提高目標神經(jīng)網(wǎng)絡(luò)模型的適用性。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)技術(shù)領(lǐng)域,特別是涉及一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置。
背景技術(shù)
隨著計算機技術(shù)的快速發(fā)展,以深度學(xué)習(xí)為代表的AI(ArtificialIntelligence,人工智能)技術(shù)在各方面得到了廣泛應(yīng)用。例如,基于樣本圖像和預(yù)設(shè)損失函數(shù),對預(yù)設(shè)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,使得訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型可以自動識別圖像中的對象(例如,人物、動物等)。
然而,學(xué)習(xí)能力強、擬合能力好的神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)比較復(fù)雜,相應(yīng)的,基于訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)進行處理,對運行該神經(jīng)網(wǎng)絡(luò)模型的設(shè)備的性能要求較高,也就導(dǎo)致相關(guān)技術(shù)中神經(jīng)網(wǎng)絡(luò)模型的適用性較差。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置,以降低神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)復(fù)雜度,提高神經(jīng)網(wǎng)絡(luò)模型的適用性。具體技術(shù)方案如下:
在本發(fā)明實施的第一方面,首先提供了一種神經(jīng)網(wǎng)絡(luò)模型生成方法,所述方法包括:
獲取預(yù)設(shè)結(jié)構(gòu)的第一神經(jīng)網(wǎng)絡(luò)模型;其中,所述第一神經(jīng)網(wǎng)絡(luò)模型包括至少一個BN(Batch?Normalization,批標準化)層;
基于目標樣本圖像和目標損失函數(shù),對所述第一神經(jīng)網(wǎng)絡(luò)模型進行模型訓(xùn)練,得到第二神經(jīng)網(wǎng)絡(luò)模型;其中,所述目標損失函數(shù)為基于原始損失函數(shù)和所述BN層的模型參數(shù)計算得到的;所述第二神經(jīng)網(wǎng)絡(luò)模型的輸入?yún)?shù)為所述目標樣本圖像、輸出參數(shù)為所述目標樣本圖像中每一像素點屬于預(yù)設(shè)類別的概率;
確定所述第二神經(jīng)網(wǎng)絡(luò)模型中除目標卷積核以外的網(wǎng)絡(luò)模型結(jié)構(gòu),作為第三神經(jīng)網(wǎng)絡(luò)模型;其中,所述目標卷積核為所述第二神經(jīng)網(wǎng)絡(luò)模型中對應(yīng)的BN層的模型參數(shù)的絕對值小于目標閾值的卷積核;
基于所述第三神經(jīng)網(wǎng)絡(luò)模型,生成目標神經(jīng)網(wǎng)絡(luò)模型。
可選的,所述目標損失函數(shù)的計算過程包括:
針對每一BN層,基于預(yù)設(shè)公式計算該BN層對應(yīng)的正則化約束;其中,所述預(yù)設(shè)公式為:
R=λ1|γ|+λ2|β|
R表示該BN層對應(yīng)的正則化約束,λ1和λ2表示預(yù)設(shè)權(quán)重;γ表示該BN層的縮放因子,β表示該BN層的偏置;|γ|表示γ的范數(shù),|β|表示β的范數(shù);
計算各個BN層對應(yīng)的正則化約束與所述原始損失函數(shù)的總和值,得到所述目標損失函數(shù)。
可選的,所述基于所述第三神經(jīng)網(wǎng)絡(luò)模型,生成目標神經(jīng)網(wǎng)絡(luò)模型,包括:
針對所述第三神經(jīng)網(wǎng)絡(luò)模型中的每一BN層,按照該BN層的前一網(wǎng)絡(luò)層輸出數(shù)據(jù)的維度,對該BN層的維度進行調(diào)整,得到第四神經(jīng)網(wǎng)絡(luò)模型;
基于所述目標樣本圖像和所述原始損失函數(shù),對所述第四神經(jīng)網(wǎng)絡(luò)模型進行模型訓(xùn)練,得到目標神經(jīng)網(wǎng)絡(luò)模型。
可選的,在確定所述第二神經(jīng)網(wǎng)絡(luò)模型中除目標卷積核以外的網(wǎng)絡(luò)模型結(jié)構(gòu),作為第三神經(jīng)網(wǎng)絡(luò)模型之前,所述方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀科技有限公司,未經(jīng)北京奇藝世紀科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110103858.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





