[發明專利]一種用于CPU集群的分階段并行編譯優化方法在審
| 申請號: | 202211703928.7 | 申請日: | 2022-12-29 |
| 公開(公告)號: | CN115904390A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 孫禮銳;王鑫宇;王中盟 | 申請(專利權)人: | 安徽深圖科技有限公司 |
| 主分類號: | G06F8/41 | 分類號: | G06F8/41 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230000 安徽省合肥市高新區大*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 cpu 集群 分階段 并行 編譯 優化 方法 | ||
1.一種用于CPU集群的分階段并行編譯優化方法,其特征在于,該方法包括以下步驟:
S1、CPU集群數據獲取;
S2、將獲取后的數據進行操作符并行,并進行優化;
S3、通過執行引擎進行對操作符并行后的數據進行執行。
2.根據權利要求1所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述將獲取后的數據進行操作符并行,并進行優化包括以下步驟:
S21、將獲取后的數據進行操作符內并行;
S22、將操作符內并行的數據進行操作符內部優化;
S23、將獲取后的數據進行操作符間并行;
S24、將操作符間并行的數據進行操作符間優化。
3.根據權利要求2所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述將獲取后的數據進行操作符內并行包括以下步驟:
S211、采用SPMD風格的操作符內并行性;
S212、定義操作符內傳遞的搜索空間。
4.根據權利要求3所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述定義操作符內傳遞的搜索空間包括以下步驟:
S2121、根據獲取后的數據定義設備組;
S2122、獲取后的數據通過重新分片定義張量的布局,并定義布局轉換的代價。
5.根據權利要求4所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述獲取后的數據通過重新分片定義張量的布局,并定義布局轉換的代價的計算公式為:
其中,v為節點;
cv為所有并行算法的通信成本向量;
dv為v的計算代價,且dv∈Rkv;
sv∈{0,1}kv為每個節點v的一個單熱決策向量的算法;
Rvu∈Rkv×ku為節點v與節點u之間的分片開銷。
6.根據權利要求2所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述將獲取后的數據進行操作符間并行包括以下步驟:
S231、根據獲取后的數據進行操作符間傳遞;
S232、優化數據最小化整個計算圖的端到端流水線執行延遲;
S233、將操作符分為S個階段,并通過所有階段的總延遲和最慢階段的延遲計算最優解。
S234、針對分配的設備組編譯每個階段,并為每個階段設備組對生成并行可執行文件。
7.根據權利要求6所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述優化數據最小化整個計算圖的端到端流水線執行延遲的計算公式為:
其中si表示我們將算子分成的階段,每個階段si都分配給了一個大小為ni×mi的子網格處理,使用ti=tintra(si,Mesh(ni,mi))表示執行的延遲,B表示分成的批的數量。
8.根據權利要求6所述的一種用于CPU集群的分階段并行編譯優化方法,其特征在于,所述將操作符分為S個階段,并通過所有階段的總延遲和最慢階段的延遲計算最優解的計算公式為:
函數F(s,k,d;tmax)表示切片時的最小總延遲,因此現在的目標變成了最小化F(s,0,N×M;tmax),從F(0,K,0;tmax)=0開始迭代。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽深圖科技有限公司,未經安徽深圖科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211703928.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種護理消毒棉球浸泡設備
- 下一篇:一種骨科臨床用腿部拉伸裝置





