[發(fā)明專利]一種可伸縮的并行數(shù)據(jù)載入裝置及方法在審

申請?zhí)枺?/td>	202110272919.6	申請日：	2021-03-12
公開（公告）號：	CN113095030A	公開（公告）日：	2021-07-09
發(fā)明（設(shè)計）人：	楊旭光	申請（專利權(quán)）人：	蘇州芯啟微電子科技有限公司
主分類號：	G06F30/373	分類號：	G06F30/373;G06F30/27;G06N3/04;G06N3/08
代理公司：	暫無信息	代理人：	暫無信息
地址：	215024 江蘇省蘇州市蘇州***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種伸縮并行數(shù)據(jù) 載入裝置方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供一種可伸縮并行數(shù)據(jù)載入裝置及方法。用于數(shù)據(jù)張量的并行載入加速，可方便的伸縮擴展，為任意規(guī)模的并行執(zhí)行單元提供數(shù)據(jù)輸入，具有高數(shù)據(jù)帶寬的特點。包括：并行輸入寄存陣列，其設(shè)計尺寸與計算單元陣列尺寸滿足一定規(guī)律，硬件的定制設(shè)計基于此規(guī)律進行；包括輸入數(shù)據(jù)的變換方法，決定了數(shù)據(jù)降維后的順序；并行輸入數(shù)據(jù)訪問引擎，對上述并行輸入寄存陣列中的數(shù)據(jù)進行并行訪問，具有特定的控制算法和電路結(jié)構(gòu)，為便于芯片實現(xiàn)而優(yōu)化。設(shè)計形成一套硬件數(shù)據(jù)處理方法，包括變換算法和編址法則，提升了輸入數(shù)據(jù)的局域空間信息利用率，為并行加速計算單元提供高帶寬數(shù)據(jù)輸入，并減少了對主存儲器的訪問次數(shù)。

技術(shù)領(lǐng)域

本發(fā)明屬于計算機硬件、人工神經(jīng)網(wǎng)絡(luò)算法部署硬件加速、張量計算硬件的領(lǐng)域，數(shù)字集成電路設(shè)計領(lǐng)域，具體涉及一種深度卷積神經(jīng)網(wǎng)絡(luò)硬件加速芯片的輸入數(shù)據(jù)的關(guān)鍵處理裝置，及其設(shè)計方法。

背景技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)算法由多層具體的神經(jīng)元算法層、隱藏層組成，主要包含有卷積層，主要算子為矩陣或向量的卷積計算。該計算任務(wù)的主要特點為輸入的數(shù)據(jù)量大、輸入數(shù)據(jù)具有空間特征信息的耦合，且每次卷積計算的數(shù)據(jù)往往與已經(jīng)計算過的數(shù)據(jù)發(fā)生重疊，輸入數(shù)據(jù)往往為從張量格式的數(shù)據(jù)中以一定空間規(guī)律抽取所需要的計算數(shù)據(jù)。

近年來在終端部署人工神經(jīng)算法已經(jīng)成為廣泛需求，但在相關(guān)場景下，加速芯片的性能、成本因素成為制約需求的主要因素。專利文件1（公開號CN105488565A）公開了一種加速深度神經(jīng)網(wǎng)絡(luò)算法的加速芯片的運算裝置及方法，為克服大量的中間值被生成并需要存儲，從而所需主存空間增加的問題，其運算裝置中均設(shè)置有中間值存儲區(qū)域，這些區(qū)域被配置為隨機存儲器，運算模塊通過index訪問該區(qū)域。該裝置設(shè)計能夠減少對主存儲器的中間值讀取和寫入次數(shù)，降低加速器芯片的能量消耗，避免數(shù)據(jù)處理過程中的數(shù)據(jù)缺失和替換問題。專利文件2（申請公布號CN107341544A）公開了一種基于可分割陣列的可重構(gòu)加速器及其實現(xiàn)方法，設(shè)計了便箋式存儲器緩存區(qū)，用于實現(xiàn)數(shù)據(jù)重用。專利文件3（公開號USB0170103316A1）公開了一種卷積神經(jīng)網(wǎng)絡(luò)加速器的方法、系統(tǒng)及裝置，在其中設(shè)計了Unified Buffer。專利文件4（公開號US20180341495A1）公開了一種卷積神經(jīng)網(wǎng)絡(luò)加速器及方法，其中采用cache裝置來提供并行加速所需數(shù)據(jù)。這些發(fā)明都非常優(yōu)秀，已開展在服務(wù)器、數(shù)據(jù)中心以及高端智能手機上的應(yīng)用，但在終端的應(yīng)用還有問題。

在終端部署人工神經(jīng)算法，其需求特征為，由于加速芯片的硬件資源有限，必需要將數(shù)據(jù)進行分割處理，并盡量減少數(shù)據(jù)的膨脹；而對于不同領(lǐng)域和產(chǎn)業(yè)場景所常用的人工神經(jīng)網(wǎng)絡(luò)算法不同，這種處理應(yīng)為一套簡單、便于實現(xiàn)的方法，否則仍難以“落地”。在專利文件1和3所述發(fā)明中，由于不同神經(jīng)網(wǎng)絡(luò)算法層尺寸不一、數(shù)據(jù)重用度不同而導(dǎo)致加速器資源的浪費，以至于需要配合其他異構(gòu)處理器來幫助解決數(shù)據(jù)相關(guān)的問題；專利3所述的存儲方式需要備份更多數(shù)據(jù)，導(dǎo)致Buffer尺寸太大；專利2的方法采用可重構(gòu)計算思想，雖然極為注重節(jié)省資源浪費，但其數(shù)據(jù)分割和排布方法很復(fù)雜；專利4的發(fā)明與中央處理器的設(shè)計過于耦合，同時設(shè)計實現(xiàn)復(fù)雜度過高。

發(fā)明內(nèi)容

本發(fā)明提供一種通用張量計算的硬件并行加速器中，可伸縮的并行數(shù)據(jù)載入裝置及其方法，以降低硬件電路設(shè)計的復(fù)雜度、降低芯片的面積和功耗，同時還能提供高吞吐率、高性能的并行數(shù)據(jù)帶寬，提高芯片的計算資源與內(nèi)存帶寬利用率，降低應(yīng)用的復(fù)雜度與成本。

為實現(xiàn)上述目的，本發(fā)明提供了一種可伸縮的并行數(shù)據(jù)載入裝置，該并行載入裝置包括：

并行輸入寄存陣列，向并行加速計算單元陣列進行高帶寬的數(shù)據(jù)輸入；

并行輸入數(shù)據(jù)訪問引擎，對上述并行輸入寄存陣列中的數(shù)據(jù)進行并行訪問并連接并行寄存陣列的輸出以及并行加速計算單元的輸入。

本發(fā)明的并行數(shù)據(jù)載入裝置中的并行輸入寄存陣列，用于緩存輸入緩存中存儲的關(guān)于深度卷積神經(jīng)網(wǎng)絡(luò)算法層的前一隱含層所輸出的特征圖，該并行輸入寄存陣列提供數(shù)據(jù)重排布的快速寄存區(qū)域，簡化了輸入數(shù)據(jù)排布的難度；該并行輸入寄存陣列可以被反復(fù)訪問，當(dāng)其中的數(shù)據(jù)已經(jīng)作廢時，可重新從輸入緩存中快速寫入新的數(shù)據(jù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州芯啟微電子科技有限公司，未經(jīng)蘇州芯啟微電子科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110272919.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基站探測方法及系統(tǒng)、計算機可讀存儲介質(zhì)
下一篇：一種寄存器窗的微架構(gòu)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】