[發明專利]一種利用NVIDIA Kepler GPU匯編指令加速的卷積優化方法及系統有效
| 申請號: | 201611215263.X | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN106846235B | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 周可人;譚光明 | 申請(專利權)人: | 中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司 |
| 主分類號: | G06T1/20 | 分類號: | G06T1/20 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;李巖 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 nvidia kepler gpu 匯編 指令 加速 卷積 優化 方法 系統 | ||
本發明提出一種利用NVIDIA Kepler GPU匯編指令加速的卷積優化方法,涉及深度學習,高性能計算,GPGPU編程技術領域,該方法包括將N,C*R*S大小的矩陣與C*R*S,K大小的矩陣相乘,獲得N,K大小的輸出元素,對N維度用bn做分塊,對K維度用bk作分塊,獲得GPU的block維度為P*Q,N/bx,K/by,其中N為批處理圖像數目,K為輸出圖像深度,C為輸入圖像深度,R為卷積核高度,S為卷積核寬度,P為輸出圖像高度,Q為輸出圖像寬度。本發明相比傳統的卷積過程簡化了步驟,減少了調用次數,增加了數據局部性;避免額外延遲并可選取高效的向量指令,如STS.128,LDG.128減少bank沖突和增加帶寬;可以達到75%的峰值性能,超過目前最優的cudnn實現20%?40%。
技術領域
本發明涉及深度學習,高性能計算,GPGPU編程技術領域,特別涉及一種利用NVIDIA Kepler GPU匯編指令加速的卷積優化方法及系統。
背景技術
隨著人工智能浪潮的掀起,無人車,圖像識別,語音識別等應用得到了廣泛的推廣,深度學習已經成為支持這些應用的重要模型訓練手段,但是長期以來,由于深度學習的模型規模大,數據量多的問題,其訓練速度較慢,難以得到普遍的使用,傳統的深度學習系統采用大規模CPU,GPU分布式互聯的方式來提升其速度,其中,“Andrew Lavin and ScottGray.Fast Algorithms For Convolutional Neural Netoworks.Arxiv.CoRR,abs/1509.09308,2015.”提出了兩種通用的并行模式:模型并行和數據并行,分別解決模型通信時間較長和數據量較大的情況。而“T.Chilimbi,Y.Suzue,J.Apacijble,andK.Kalyanaraman.Project adam:Building an efficient and scalable deep learningtraining system.11th USENIX Symposium on Operating Systems Design andImplementation,2014.”利用上述并行手段設計了大規模的深度學習框架。在工業界,google發布了tensorflow框架,facebook維護了torch框架,此外開源社區還支持mxnet,caffe等深度學習框架,深度學習的軟件框架已經相當成熟。
最近,越來越多的關注集中到了用高性能的手段來優化深度學習的性能,傳統的深度學習計算程序大多數依賴于現有的BLAS/CUBLAS高性能計算數學庫,但這些數學庫只提供了基本的運算函數,如矩陣乘,而深度學習中的卷積等運算如果用傳統BLAS計算來實現就不能很好的利用計算資源,現有的GPU端的卷積操作的實現存在如下問題:
Cudnn“https://developer.nvidia.com/cudnn”:不對外開源。基于矩陣乘的實現只能達到60%左右的峰值性能;基于FFT(快速傅里葉變換)的實現只針對stride=1(步長)的情況,不能通用而且需要大量的額外內存;缺少直接卷積算法實現。
Neon“https://github.com/NervanaSystems/neon”:只針對Maxwell GPU實現了直接卷積算法,不能直接高效移植到Kepler GPU,并且在一些特殊的網絡配置下性能低。
Caffe“https://github.com/BVLC/caffe”:利用現有的BLAS運算,導致其需要額外內存并且效率十分低。
發明內容
針對現有技術的不足,本發明提出一種利用NVIDIA Kepler GPU匯編指令加速的卷積優化方法及系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司,未經中國科學院計算技術研究所;中國科學院國有資產經營有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611215263.X/2.html,轉載請聲明來源鉆瓜專利網。





