[發(fā)明專利]大規(guī)模DSP并行計算裝置在審
| 申請?zhí)枺?/td> | 202011580095.0 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112631986A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設計)人: | 張昊;潘靈;賈明權;劉紅偉;吳明欽;郝黎宏 | 申請(專利權)人: | 西南電子技術研究所(中國電子科技集團公司第十研究所) |
| 主分類號: | G06F15/173 | 分類號: | G06F15/173;G06F15/177;G06F9/50 |
| 代理公司: | 成飛(集團)公司專利中心 51121 | 代理人: | 郭純武 |
| 地址: | 610036 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規(guī)模 dsp 并行 計算 裝置 | ||
本發(fā)明公開的一種大規(guī)模DSP并行計算裝置,旨在提供一種開發(fā)環(huán)境簡單,可移植性好,安全可靠的DSP并行計算裝置。本發(fā)明通過下述技術方案實現(xiàn):背板單元利用高速印制板PCB布線技術引出安裝槽位的RIO網(wǎng)絡與網(wǎng)絡交換單元進行連接,每個數(shù)字信號處理器DSP芯片子卡板載DDR3芯片與加載FLASH芯片和EEPROM芯片陣列協(xié)同實現(xiàn)并行計算單元,DSP芯片線陣排列對稱分布連接在網(wǎng)絡交換單元的兩邊;控制單元通過網(wǎng)線連接網(wǎng)絡交換單元,完成網(wǎng)絡路由,基于測點計算的子任務動態(tài)分發(fā)給各計算節(jié)點,自動分配計算資源給新建立的任務,通過接收用戶下發(fā)的計算任務,自動分配DSP計算資源,采用不同進程或同一進程完成所有迭代計算。
技術領域
本發(fā)明涉及一種涉及并行處理系統(tǒng)的體系結(jié)構(gòu)、數(shù)字信號處理芯片(DSP)在并行處理中的應用、信號處理并行算法,尤其是用于智能終端或邊緣計算中心的大規(guī)模DSP并行計算裝置。
背景技術
最近幾年,隨著人工智能、無人駕駛汽車、網(wǎng)絡、工業(yè)自動化、機器學習、高性能數(shù)據(jù)分析和金融分析、云環(huán)境、陣列天線自適應干擾抑制設備、高可靠通信等計算密集型領域的興起,終端智能和邊緣計算中心的智能化程度和計算需求越來越高。隨著智能終端或邊緣計算中心的功能復雜度和多樣性的提升,對這些應用場景中計算系統(tǒng)的高算力、低功耗、多應用功能部署和計算資源的靈活調(diào)度等要求也越來越高。
并行計算是一種用多臺處理機聯(lián)合求解問題的過程,其執(zhí)行過程是將給定的問題首先分解成若干個盡量相互獨立的子問題,然后使用多臺計算機同時求解它,從而最終求得原問題的解。并行計算的提出是當今人們對快速處理大量復雜數(shù)據(jù)的迫切需求。首先,對于那些要求快速計算的應用問題,單處理機由于器件受物理速度的限制而無法滿足要求。基于DSP的網(wǎng)絡并行計算系統(tǒng)的設計與實現(xiàn)對于那些大型復雜的科學工程計算問題,為了提高計算精度,往往需要加密計算網(wǎng)格,而細網(wǎng)格的計算也意味著大計算量,它通常需要在并行機上實現(xiàn);對于那些實時性要求很高的應用問題,傳統(tǒng)的串行處理往往難以滿足實時性的需要而必須在并行機上用并行算法求解。隨著科學技術不斷發(fā)展,在生物科學、信號處理、環(huán)境科學等領域出現(xiàn)的問題規(guī)模不斷增大,CPU處理器的主頻時鐘速度也在狂飆猛進地提升,對計算能力的需求日益提高。但是,隨著制造工藝技術的制約以及CPU架構(gòu)本身設計目標的局限,這種時鐘頻率的提升很快就碰到了壁壘。傳統(tǒng)基于X86架構(gòu)的CPU(CentralProcessingUnit)并行計算的方式已經(jīng)無法滿足我們對計算能力的需求。目前,業(yè)界最受歡迎的異構(gòu)計算平臺“CPU+GPU(GraphicsProcessingUnit)”具有比傳統(tǒng)CPU并行計算更高效率和低延遲的計算性能,能夠很好的滿足智能終端或邊緣計算中心的算力需求。盡管傳統(tǒng)意義上的通用用途的GPU(GPGPU)能夠參與通用計算和處理,但使用GPU計算很麻煩,過去的GPU完全是為圖形進行設計的,它是一個非常專用的處理器,要使用GPU來做計算的話,需要透過圖形API進行,通過這種圖形的API來訪問GPU計算核心,則必須要把計算所需要的數(shù)據(jù),通過API假設這種計算是3D的計算,然后要走過一遍圖形處理過程,才能得到計算結(jié)果。第一,編程非常復雜,第二,效率也不會達到很高。因為中間必須要走過渲染的過程。但是對于真正需要并行計算的人,比如說科學家,不可能讓他們再學習圖形編程的技術,普通開發(fā)者大部分也沒有圖形編程的經(jīng)驗。在編輯的時候編譯器會把CPU代碼和GPU代碼分開,GPU代碼會被編譯成成GPU的目標代碼,CPU代碼還是需要其他的C語言編譯系統(tǒng)來編譯。CPU的程序多線程的創(chuàng)建和注銷有很多代碼。基于VDK開發(fā)的程序中,這些控制碼是由一個叫“內(nèi)核”的程序管理的,內(nèi)核常駐在DSP中。這個和CPU程序的線程不太一樣。比如即使是四核CPU,如果跑非常多線程的話,線程的管理就會成為嚴重的負擔。現(xiàn)在的CPU最重要的設計原則其實是要能更快的執(zhí)行各種指令,現(xiàn)在很多程序的結(jié)構(gòu)設計非常復雜,這些指令有非常復雜的邏輯,分支、條件的轉(zhuǎn)移等很多,要非常高效的來執(zhí)行,需要設立很大的緩存,還需要在指令執(zhí)行上做很多的工作,比如說需要很大的指令緩沖池,對指令進行分析,需要亂序執(zhí)行,把順序打亂以后,沒有數(shù)據(jù)或者存儲相關的先執(zhí)行,有相關的后執(zhí)行等等,這就導致每個CPU的core很大,其中真正負責計算的占的面積是很小的,大部分晶體管消耗在指令執(zhí)行環(huán)節(jié),計算方面能力相對就弱些。要高效運行現(xiàn)有的很多程序,這樣的設計也是必須的。而GPU的核心就是計算,運行計算,GPU有很多個核,128甚至240核,這么高的并行度就是要盡可能做到計算吞吐量足夠得大,但是GPU的每個核不可能作得像CPU的核這么復雜。這兩個設計理念就有很大的區(qū)別。我們不相信把這兩個很快的統(tǒng)一。因為從架構(gòu)設計的目標來看,就是有很大的矛盾。在現(xiàn)有的工藝條件下很難一個架構(gòu)兩邊都做好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南電子技術研究所(中國電子科技集團公司第十研究所),未經(jīng)西南電子技術研究所(中國電子科技集團公司第十研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011580095.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于各向異性波速場巖體微震定位方法
- 下一篇:一種置物平臺
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F15-00 通用數(shù)字計算機
G06F15-02 .通過鍵盤輸入的手動操作,以及應用機內(nèi)程序的計算,例如,袖珍計算器
G06F15-04 .在引入被處理的數(shù)據(jù)的同時,進行編制程序的,例如,在同一記錄載體上
G06F15-08 .應用插接板編制程序的
G06F15-16 .兩個或多個數(shù)字計算機的組合,其中每臺至少具有一個運算器、一個程序器及一個寄存器,例如,用于數(shù)個程序的同時處理
G06F15-18 .其中,根據(jù)計算機本身在一個完整的運行期間內(nèi)所取得的經(jīng)驗來改變程序的;學習機器





