[發(fā)明專利]一種基于牛頓共軛梯度法的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)有效
| 申請?zhí)枺?/td> | 202010130876.3 | 申請日: | 2020-02-28 |
| 公開(公告)號(hào): | CN111476346B | 公開(公告)日: | 2022-11-29 |
| 發(fā)明(設(shè)計(jì))人: | 林宙辰;沈錚陽;楊一博 | 申請(專利權(quán))人: | 之江實(shí)驗(yàn)室 |
| 主分類號(hào): | G06N3/04 | 分類號(hào): | G06N3/04;G06N3/08;G06V10/82;G06V40/16 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 牛頓 共軛 梯度 深度 學(xué)習(xí) 網(wǎng)絡(luò) 架構(gòu) | ||
本發(fā)明公開了一種基于牛頓共軛梯度法的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),本發(fā)明首先把神經(jīng)網(wǎng)絡(luò)的迭代運(yùn)算看成是用簡單擬牛頓法來求解一個(gè)優(yōu)化問題的過程,然后把求解過程換成更精確的牛頓法,其Hessian矩陣的逆和梯度的乘積用若干步共軛梯度法來近似,最后把整個(gè)計(jì)算過程用網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)出來,得到相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)。可應(yīng)用于人工智能、計(jì)算機(jī)視覺等應(yīng)用領(lǐng)域。采用本發(fā)明技術(shù)方案,從優(yōu)化算法出發(fā)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠改進(jìn)傳統(tǒng)的依靠經(jīng)驗(yàn)、實(shí)驗(yàn)嘗試搜索的設(shè)計(jì)方式,得到更高效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從而節(jié)省大量的時(shí)間與計(jì)算資源。本發(fā)明用優(yōu)化算法中的牛頓法來啟發(fā)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),可以得到性能優(yōu)越的深度神經(jīng)網(wǎng)絡(luò)。
技術(shù)領(lǐng)域
本發(fā)明屬于深度學(xué)習(xí)領(lǐng)域,尤其涉及一種基于牛頓共軛梯度法的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)。
背景技術(shù)
在過去幾年中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)已成為計(jì)算機(jī)視覺領(lǐng)域中用于各種任務(wù)的主流機(jī)器學(xué)習(xí)方法,包括圖像識(shí)別、目標(biāo)檢測和語義分割。總之, CNN模型的結(jié)構(gòu)決定了它的性能,因此設(shè)計(jì)CNN是一個(gè)核心問題。但是,大多數(shù)CNN結(jié)構(gòu)仍是通過手動(dòng)設(shè)計(jì)獲得的,這是經(jīng)驗(yàn)化的、耗時(shí)且缺乏理論支持。人們很難深入了解神經(jīng)網(wǎng)絡(luò)的機(jī)理。因此,有必要從理論的角度探索CNN結(jié)構(gòu),并設(shè)計(jì)出更透明且有效的CNN結(jié)構(gòu)。
事實(shí)上,有一些工作利用優(yōu)化算法來輔助設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它們主要用于解決壓縮感知問題。很多傳統(tǒng)的方法用迭代算法求解一個(gè)有良好定義的壓縮感知優(yōu)化問題。但是,迭代算法通常需要多次迭代才能收斂,計(jì)算復(fù)雜性較高。許多工作(Karol GregorandYann LeCun,‘Learning fast approximations of sparse coding’,in ICML,pp.399-406,Omnipress,(2010).Bo Xin, Yizhou Wang,Wen Gao,David Wipf,and Baoyuan Wang,‘Maximal sparsity with deep networks’, in NIPS,pp.4340-4348,(2016).Jian Sun,Huibin Li,Zongben Xu,et al.,‘Deep ADMM-Net for com-pressive sensing MRI’,inNIPS,pp.10-18,(2016).Jian Zhang and Bernard Ghanem,‘ISTA-Net:Interpretableoptimization-inspired deep network for image compressive sensing’,in CVPR,pp.1828-1837,(2018).)將迭代算法展開,自然地獲得了優(yōu)化算法啟發(fā)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
但是,由于難以建立合適的的特征提取優(yōu)化問題,這種設(shè)計(jì)方法仍難以直接用于圖像識(shí)別任務(wù)。為解決這一問題,受常微分方程(ordinary differential equation,ODE)啟發(fā)的CNN 設(shè)計(jì)方法提供了另一種思路。一些工作(Eldad Haber and Lars Ruthotto,‘Stable architectures for deep neural networks’,Inverse Problems,34(1),014004,(2017).Yiping Lu,Aoxiao Zhong, Quanzheng Li,and Bin Dong,‘Beyondfinite layer neural networks:Bridging deep architectures and numericaldifferential equations’,in ICML,(2018).Tian Qi Chen,Yulia Rubanova,JesseBettencourt,and David K Duvenaud,‘Neural ordinary differential equations’,inNeurIPS,pp. 6571–6583,(2018).)將ResNet的前向傳播過程視為一個(gè)ODE的歐拉格式,然后在這種新視角下設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。但是這種方法很難誘導(dǎo)出新的計(jì)算模塊,如Dropout模塊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于之江實(shí)驗(yàn)室,未經(jīng)之江實(shí)驗(yàn)室許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010130876.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 處理圖像的方法與裝置
- 一種磁共振成像系統(tǒng)的梯度磁場產(chǎn)生方法及其裝置
- 用于驅(qū)動(dòng)梯度線圈的梯度放大器系統(tǒng)及配置方法
- 一種基于相對(duì)梯度的圖像質(zhì)量客觀評(píng)價(jià)方法
- 一種優(yōu)化平衡穩(wěn)態(tài)自由進(jìn)動(dòng)序列的方法與裝置
- 一種重力梯度儀自標(biāo)定方法及離心梯度補(bǔ)償方法
- 梯度線圈及磁共振成像系統(tǒng)
- 一種磁場方向和梯度方向夾角可調(diào)的二維梯度磁場系統(tǒng)
- 一種聯(lián)邦推薦梯度獲取方法、裝置、智能終端及存儲(chǔ)介質(zhì)
- 一種超導(dǎo)全張量磁梯度探頭及超導(dǎo)全張量磁梯度測量系統(tǒng)





