[發明專利]基于申威芯片架構并行文件讀取的數據預處理方法有效
| 申請號: | 201810893877.6 | 申請日: | 2018-08-07 |
| 公開(公告)號: | CN109271344B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 陳建海;周宇;張淼;何欽銘;沈欽仙 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/16;G06F9/50 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 芯片 架構 并行 文件 讀取 數據 預處理 方法 | ||
1.一種基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,包括以下步驟:
(1)將內存運行模式設置為全片共享模式;
(2)預處理進程讀取數據文件的元數據信息,根據所述的元數據信息對計算進程進行分組;
(3)預處理進程根據計算進程分組信息,建立對應的MPI模型,調用MPI-IO并行讀取函數讀取數據文件;包括:
(3-1)預處理進程根據計算進程組的空間關系,建立對應維度和維度長度的笛卡爾通信域;
(3-2)根據元數據信息中數據類型、維度以及每個維度的長度,笛卡爾通信域中的預處理進程建立對應的MPI數據類型和文件視圖;
(3-3)笛卡爾通信域中預處理進程調用MPI-IO函數并行讀取數據文件;
(4)對預處理進程所讀取的數據進行維度轉化,使對應計算進程組中每個計算進程所對應的數據塊連續排布;
將維度轉化后的數據寫回到對應的計算進程組對應的數據文件中,并建立對應的元數據文件。
2.根據權利要求1所述的基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,步驟(2)中,所述元數據信息包括數據文件的維度、每個維度的長度以及數據類型,還包括計算進程數以及每個計算進程需要讀取的數據大?。凰鰯祿笮“〝祿诿總€維度上的長度。
3.根據權利要求1所述的基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,步驟(2)包括:
(2-1)預處理主進程讀取數據文件的元數據信息;
(2-2)將一個計算進程需要讀取的數據作為一個數據塊,將數據文件劃分成若干個數據塊,將數據文件抽象成一個網格;該網格每個維度上數據塊的個數作為該網格維度的長度;
(2-3)對計算進程進行分組:
(a)確定計算進程組數:
設計算進程總數為k,預處理進程總數為M;
從M到1,按照從大到小的方式逐步調整m值,每次調整幅度為1,直至m為k的約數,停止,將此m值作為計算進程組數;
(b)對計算進程組數m做質因數分解,并按降序排列分解出的質因數;
(c)將質因數分配至合適的網格維度上:
每次尋找長度最大的網格維度,按照從大到小的順序依次選擇質因數;
若最大網格維度的長度是該質因數的倍數,則將該網格維度的長度更新為該網格維度的長度與該質因數的商,將該質因數置為0;
若最大網格維度的長度不是該質因數的倍數,則按照從大到小的順序選擇下一質因數;
(d)重復步驟(c),直至將所有的質因數分配完畢;若沒有質因數分配到某個網格維度,則默認該網格維度上分配的質因數為1;
(e)每個網格維度的長度除以該網格維度上所分配的質因數之積,所得的商為一個計算進程組在該網格維度上的計算進程數,得到計算進程組的空間關系,以此對計算進程進行分組;
(2-4)預處理主進程將元數據信息和計算進程分組信息廣播給其他預處理進程。
4.根據權利要求1所述的基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,在笛卡爾通信域中,預處理進程數等于計算進程組數。
5.根據權利要求1所述的基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,步驟(4)中,所述的維度轉化是指:在預處理進程對應的計算進程組中,按照計算進程的空間關系,將該預處理進程所讀取的數據順序排布。
6.根據權利要求1所述的基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,步驟(4)中,對預處理進程所讀取的數據塊進行維度轉化具有兩種方式:
(?。┰陬A處理進程的內存中,對數據塊的存放順序進行維度轉化,使一個計算進程所對應的數據塊連續排布;
或,(ⅱ)在將預處理進程中的數據寫回到各計算進程的數據文件過程中,將一個計算進程所對應的所有數據塊寫回完成后,再寫回下一計算進程所對應的所有數據塊,直至數據寫回完成。
7.根據權利要求1所述的基于申威芯片架構并行文件讀取的數據預處理方法,其特征在于,步驟(4)中,所述的元數據文件包括:計算進程組中每個計算進程所對應數據的起始位置以及數據量、數據類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810893877.6/1.html,轉載請聲明來源鉆瓜專利網。





