[發(fā)明專利]存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202310301511.6 | 申請日: | 2023-03-24 |
| 公開(公告)號: | CN116303246A | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 姬貴陽 | 申請(專利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/17 |
| 代理公司: | 北京連和連知識產(chǎn)權(quán)代理有限公司 11278 | 代理人: | 劉小峰;陳黎明 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 存儲 增量 統(tǒng)計 方法 裝置 計算機(jī) 設(shè)備 介質(zhì) | ||
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。該方法包括以下步驟:獲取文件目錄的底層目錄信;基于所述底層目錄信息判斷文件目錄是否發(fā)生修改;若發(fā)生修改則將文件目錄的底層子目錄信息入棧;若未發(fā)生修改,則將文件目錄的數(shù)據(jù)庫子目錄信息入棧;基于入棧的底層子目錄信息和數(shù)據(jù)庫子目錄信息,判斷文件目錄是否存在子目錄,若沒有則出棧;將棧中的底層子目錄信息和數(shù)據(jù)庫子目錄信息輸入至隊列中;基于隊列中底層子目錄信息和數(shù)據(jù)庫子目錄信息,更新文件目錄信息,并將更新后的文件目錄信息儲存至輕量級數(shù)據(jù)庫。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著人工智能相關(guān)產(chǎn)業(yè)的蓬勃發(fā)展,越來越多的科研企業(yè)和高校的研究人員對計算力的要求也是越來越高,AI集群平臺的建設(shè)有效解決了企業(yè)和科研高校對計算力的要求。各種各樣的人工智能平臺在市面上也不斷的踴躍和產(chǎn)生。人工智能平臺的一個重要基本功能是存儲文件的操作管理,包括用戶文件的管理,數(shù)據(jù)集文件的管理等,用戶可以在文件管理操作產(chǎn)生文件,也可以是業(yè)務(wù)中訓(xùn)練生成文件,這些大量文件生成操作都非常消耗集群的存儲資源,且AI集群對于存儲的要求非常高,集群存儲伴隨著頻繁的IO操作,如何在集群存儲對海量的文件中進(jìn)行快速文件統(tǒng)計,文件包括用戶目錄,數(shù)據(jù)集目錄,模型目錄等,存儲性能不影響平臺的訓(xùn)練任務(wù)和其它文件操作,成為AI集群中首要解決的問題,關(guān)乎于集群用戶進(jìn)行模型訓(xùn)練工作效率。
目前市場上主要的AI平臺廠商,面向商業(yè)公司,主流方法對海量文件的統(tǒng)計非常簡單,直接遍歷存儲中所有文件,得出各個文件目錄的大小,這種方式比較簡單且暴力,“簡單”在于方式比較傳統(tǒng),遍歷所有文件進(jìn)行文件大小的統(tǒng)計,“暴力”在于在遍歷過程不斷的消耗存儲的資源IO,同時也在不斷消耗的業(yè)務(wù)服務(wù)的CPU和MEM等資源,同時該方法得出統(tǒng)計結(jié)果也不理想,在海量文件下(TB級別以上)統(tǒng)計大小具有延時,且非常耗時,造成統(tǒng)計的結(jié)果有誤差,同時各個AI廠家不斷的優(yōu)化遍歷統(tǒng)計方法,但結(jié)果只能是解決皮毛問題,解決不到根本核心問題。目前AI云廠商,面向客戶人員個體,由于其存儲歸屬于自己管理,所有的存儲文件上傳入口都在自己的存儲服務(wù)器上,該業(yè)務(wù)場景的存儲大小統(tǒng)計方法相比上一種模式比較簡單,他只需要在用戶使用存儲的過程中,上傳和刪除文件進(jìn)行文件大小的更新,同時不斷對用戶存儲目錄的監(jiān)控,可以得到實(shí)時的統(tǒng)計結(jié)果,這種方法效果比較好,但對于私有云場景來說,該方法是無法得到預(yù)期的效果。最后一種現(xiàn)有的存儲統(tǒng)計方法是存儲提供quota配額方法,例如nfs和beegfs等文件裝置,quota配額的優(yōu)點(diǎn)非常明顯,統(tǒng)計的速度快,統(tǒng)計的結(jié)果的準(zhǔn)確,但是只限于存儲的用戶大小統(tǒng)計,其缺點(diǎn)非常明顯,第一是不能統(tǒng)計目錄級別的大小;第二是存儲支持單一,對于AI場景掛載多個存儲并不支持;第三對于AI場景下各業(yè)務(wù)使用大小,也不能統(tǒng)計公共目錄和數(shù)據(jù)集目錄的大?。蛔詈髊uota方案或多或少對存儲性能有些影響。針對AI場景下私有存儲的海量文件大小統(tǒng)計,對存儲資源的網(wǎng)絡(luò),磁盤,CPU和內(nèi)存的消耗非常大,主流的存儲統(tǒng)計方法在AI場景下并不適用,且AI平臺的任務(wù)訓(xùn)練對存儲的壓力消耗也非常大。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明提供了一種存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。
為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了如下的技術(shù)方案:
第一方面,在本發(fā)明提供的一個實(shí)施例中,提供了存儲增量統(tǒng)計方法,該方法應(yīng)用與AI平臺,該方法包括以下步驟:
獲取文件目錄的底層目錄信;
基于所述底層目錄信息判斷文件目錄是否發(fā)生修改;若發(fā)生修改則將文件目錄的底層子目錄信息入棧;若未發(fā)生修改,則將文件目錄的數(shù)據(jù)庫子目錄信息入棧;
基于入棧的底層子目錄信息和數(shù)據(jù)庫子目錄信息,判斷文件目錄是否存在子目錄,若沒有則出棧;
將棧中的底層子目錄信息和數(shù)據(jù)庫子目錄信息輸入至隊列中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310301511.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 統(tǒng)計系統(tǒng)、統(tǒng)計裝置和統(tǒng)計方法
- 人數(shù)統(tǒng)計方法和人數(shù)統(tǒng)計系統(tǒng)
- 統(tǒng)計物體數(shù)量的統(tǒng)計系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計計數(shù)方法
- 統(tǒng)計信息上報方法及裝置
- 稿件統(tǒng)計方法和稿件統(tǒng)計系統(tǒng)
- 數(shù)據(jù)統(tǒng)計方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計狀態(tài)的方法及裝置
- 信息統(tǒng)計方法和信息統(tǒng)計裝置
- 電量統(tǒng)計系統(tǒng)及電量統(tǒng)計方法





