[發明專利]一種基于FPGA輕量級卷積加速器的設計方法在審
申請號: | 202110365541.4 | 申請日: | 2021-04-06 |
公開(公告)號: | CN113112002A | 公開(公告)日: | 2021-07-13 |
發明(設計)人: | 臧陽陽;張菁;張天馳 | 申請(專利權)人: | 濟南大學 |
主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
代理公司: | 暫無信息 | 代理人: | 暫無信息 |
地址: | 250022 *** | 國省代碼: | 山東;37 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 fpga 輕量級 卷積 加速器 設計 方法 | ||
本發明公開了一種基于FPGA卷積加速的方法。首先通用處理器用于解析神經網絡配置信息以及權值數據,并將神經網絡配置信息以及權值數據寫入RAM中,針對外存訪問帶寬限制,基于設計空間探索確定循環分塊因子以最大化數據重用,從而提高整個網絡的運算性能。然后FPGA從RAM中讀取配置信息,用于生成FPGA加速器,接著通用處理器讀入圖片信息,并把它寫入DRAM中,然后FPGA加速器從DRAM中讀取圖片數據并開始計算,并把計算結果寫入DRAM中。本發明加速器使得各層能夠同時部署在FPGA芯片上,并以流水線的方式運行,提高了運算性能和數據吞吐率。
技術領域
本發明涉及卷積加速領域,具體涉及基于FPGA輕量級卷積加速器的設計方法。
背景技術
隨著消費電子、汽車電子、工業控制等越來越多的應用引入人工智能(AI),人工智能面臨著前所未有的快速發展,深度學習、神經網絡等技術迎來了發展高潮。神經網絡越大,需要的計算量就越大,傳統的VPU雖然也能完成人工智能運算,但因為高功耗和高延遲已經略顯疲憊。在VPU上加載人工智能計算能力則可以規避這些問題,而且具有更高的可靠性。目標應用包括車載系統中的影像拍攝,以及基于行人、自行車等高精度物體識別的輔助駕駛以及自動泊車。另一個重要的應用便是顯示系統,例如電視、數字標牌,NNA可在超分辨率處理時增強圖像識別,提高4K/8K屏幕高清晰度成像。Socionext將不斷創新并開發出高效、高性能產品,以適應各種邊緣計算環境中廣泛的AI應用。人工智能專用加速器強調的是適當時間提供給合適的智能。對現有的制造業的提升,包括縮短開發周期、降低成本、提升效率等。采用虛擬制造技術可以在產品設計階段就模擬出該產品的整個生命周期,從而更有效,更經濟、更靈活的組織生產,實現了產品開發周期最短,產品成本最低,產品質量最優,生產效率最高的保證。發展出全新的制造模式,加快這些產業的發展,加速普及市場應用,就能夠形成一個個新的經濟增長點。
由于通用處理器CPU需要在各種應用場景下提供良好的性能,因此CPU內部大部分是控制邏輯,計算單元只占很小一部分,通用處理器的這種特性難以保證神經網絡推斷對實時性的要求。在卷積神經網絡的研究初期,研究人員使用中央處理器在計算機上對卷積神經網絡進行訓練和預測的工作。但隨著卷積神經網絡層數的不斷加深,網絡中的計算量和參數量都變得十分巨大,對于以串行處理結構的CPU來說,對于卷積神經網絡的處理速度有很大的局限性。而圖形處理器(GPU)內部包含幾千個流處理器,可以并行執行大量計算任務。利用GPU這一特性,使其成為了研究人員加速卷積神經網絡訓練階段的主要方式。但是GPU的缺點也十分明顯,雖然有著較高的性能,但是功耗也十分巨大。尤其在PC端使用GPU對卷積神經網絡進行訓練時,功耗可高達數百瓦特。由于GPU自身存在體積大、功耗高的缺點,限制它在體積小,功耗低的移動端和嵌入式平臺上的推廣與應用。
這項發明卷積加速器研究,基于現有的神經網絡,本發明公開了一種基于FPGA的深度神經網絡平臺,包括通用處理器和FPGA和RAM,第一個通用處理器用來解決神經網絡的權重配置信息和數據,以及神經網絡的權重配置信息和數據內存,訪問帶寬限制CRT,基于設計周期確定的空間探索塊因子是為了最大限度地重用數據,然后FPGA從RAM讀取配置信息,利用FPGA加速卡生成加速卡,然后通用處理器讀取圖像信息,然后FPGA加速卡從DRAM中讀取圖像數據并開始計算,并將計算結果寫入DRAM中。最后,通用處理器從DRAM中讀取分類結果。本發明的加速器可以使各層同時部署在FPGA芯片上,并以流水線的方式運行,使沒有硬件知識的程序員可以利用現有的FPGA資源輕松獲得良好的性能。
發明內容
本發明的目的在于提供輕量型卷積神經網絡加速的方法。本發明具體實現如下所示:
(1)模型初始化,使用通用處理器解析神經網絡配置信息以及權重數據并寫到緩存RAM中模型初始化后進行歸一化操作,所有權值在0~1的范圍內服從正太分布。
(2)在(1)中針對外部存儲訪問限制的問題,基于空間探索確定循環分塊的方式進行訪問優化。使用原始權值矩陣的部分參數構造分塊矩陣去代替原始矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南大學,未經濟南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110365541.4/2.html,轉載請聲明來源鉆瓜專利網。