[發明專利]一種文件管理方法、裝置與介質在審
| 申請號: | 202110290894.2 | 申請日: | 2021-03-18 |
| 公開(公告)號: | CN113010479A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 姬貴陽 | 申請(專利權)人: | 山東英信計算機技術有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/17;G06F16/182 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張春輝 |
| 地址: | 250001 山東省濟南市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 管理 方法 裝置 介質 | ||
本申請公開了一種文件管理方法、裝置與介質,其中該方法針對文件系統的文件目錄進行標簽制作,由于該文件目錄標簽里包括文件目錄的至少一種參數,例如文件目錄的大小、文件目錄下的文件夾個數以及文件個數等,因此AI平臺通過計算節點進行文件讀取和傳輸時,尤其是在對大文件操作時,可以直接獲取到文件目錄標簽,避免了計算節點通過網絡對文件的大小和個數的統計操作,保證了文件通過I/O在網絡上的使用效率,提高了文件目錄遍歷讀寫時的速度。同時,又由于讀寫速度的提高,所以降低了文件輸出對AI平臺I/O資源的占用,提高了模型訓練的效率,提高了AI平臺的算法人員使用AI平臺的性能體驗。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種文件管理方法、裝置與介質。
背景技術
隨著人工智能(Artificial Intelligence,AI)的快速發展,越來越多的科研企業和高校研究人員在AI平臺上進行深度學習模型的訓練,AI平臺的一項重要功能是通過計算節點對網絡存儲(Network Storage)的文件進行讀寫操作,網絡存儲都是通過網絡掛載到各個計算節點上。
目前,AI平臺對于文件的操作,一般需要進行展示操作和傳輸操作,但是展示之前需要不斷地通過網絡進行文件目錄的大小統計,傳輸之前也需要進行文件目錄分塊、打包,需要了解文件目錄結構以及文件大小,以此判斷磁盤空間剩余。由于文件的分塊存放,就目前技術來說,對于大規模集群的AI平臺的文件讀寫和傳輸,由于網絡等各種原因,讀寫速度異常緩慢,文件目錄的遍歷在并發的情況下效率非常低,讀取有時會出現lock導致卡住的情況。同時,文件目錄的遍歷會占用AI平臺的大量資源,導致集群讀寫I/O較高,這會對其他模型的正常訓練造成影響,也會影響到AI平臺中其它模塊的使用。
基于此,如何提高文件目錄遍歷讀寫時的速度、降低文件輸出對AI平臺資源的占用是本領域技術人員亟待解決的技術問題。
發明內容
本申請的目的是提供一種文件管理方法、裝置與介質,用于提高文件目錄遍歷讀寫時的速度,降低文件輸出對AI平臺I/O資源的占用。
為解決上述技術問題,本申請提供一種文件管理方法,包括:
獲取文件系統的文件目錄;
為所述文件目錄構建文件目錄標簽;
在獲取到計算節點的獲取請求時,將所述文件目錄標簽發送至所述計算節點;
其中,所述文件目錄標簽包括所述文件目錄的至少一種參數。
優選地,在所述獲取文件系統的文件目錄之后,還包括:
通過哈希算法對所述文件目錄進行排碼以構建文件目錄有序隊列。
優選地,在所述為所述文件目錄構建文件目錄標簽之后,還包括:
監控所述文件目錄;
在所述文件目錄發生變化的情況下,更新所述文件目錄標簽。
優選地,所述在所述文件目錄發生變化的情況下,更新所述文件目錄標簽,具體包括:
鎖定所述文件目錄標簽;
根據所述文件目錄的變化情況,對所述文件目錄標簽進行修改;
釋放所述文件目錄標簽。
優選地,所述監控所述文件目錄具體為:
通過Inotify對所述文件目錄進行監控。
優選地,在所述通過Inotify對所述文件目錄進行監控之后,還包括:
獲取Inotify發送的所述文件目錄的變化列表。
優選地,所述獲取請求具體在所述計算節點進行文件傳輸時發送。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東英信計算機技術有限公司,未經山東英信計算機技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110290894.2/2.html,轉載請聲明來源鉆瓜專利網。





