[發(fā)明專利]存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202310301511.6	申請日：	2023-03-24
公開（公告）號：	CN116303246A	公開（公告）日：	2023-06-23
發(fā)明（設(shè)計）人：	姬貴陽	申請（專利權(quán)）人：	蘇州浪潮智能科技有限公司
主分類號：	G06F16/11	分類號：	G06F16/11;G06F16/17
代理公司：	北京連和連知識產(chǎn)權(quán)代理有限公司 11278	代理人：	劉小峰;陳黎明
地址：	215000 江蘇省蘇州***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	存儲增量統(tǒng)計方法裝置計算機(jī) 設(shè)備介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，具體涉及存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。該方法包括以下步驟：獲取文件目錄的底層目錄信；基于所述底層目錄信息判斷文件目錄是否發(fā)生修改；若發(fā)生修改則將文件目錄的底層子目錄信息入棧；若未發(fā)生修改，則將文件目錄的數(shù)據(jù)庫子目錄信息入棧；基于入棧的底層子目錄信息和數(shù)據(jù)庫子目錄信息，判斷文件目錄是否存在子目錄，若沒有則出棧；將棧中的底層子目錄信息和數(shù)據(jù)庫子目錄信息輸入至隊列中；基于隊列中底層子目錄信息和數(shù)據(jù)庫子目錄信息，更新文件目錄信息，并將更新后的文件目錄信息儲存至輕量級數(shù)據(jù)庫。

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，尤其涉及存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。

背景技術(shù)

隨著人工智能相關(guān)產(chǎn)業(yè)的蓬勃發(fā)展，越來越多的科研企業(yè)和高校的研究人員對計算力的要求也是越來越高，AI集群平臺的建設(shè)有效解決了企業(yè)和科研高校對計算力的要求。各種各樣的人工智能平臺在市面上也不斷的踴躍和產(chǎn)生。人工智能平臺的一個重要基本功能是存儲文件的操作管理，包括用戶文件的管理，數(shù)據(jù)集文件的管理等，用戶可以在文件管理操作產(chǎn)生文件，也可以是業(yè)務(wù)中訓(xùn)練生成文件，這些大量文件生成操作都非常消耗集群的存儲資源，且AI集群對于存儲的要求非常高，集群存儲伴隨著頻繁的IO操作，如何在集群存儲對海量的文件中進(jìn)行快速文件統(tǒng)計，文件包括用戶目錄，數(shù)據(jù)集目錄，模型目錄等，存儲性能不影響平臺的訓(xùn)練任務(wù)和其它文件操作，成為AI集群中首要解決的問題，關(guān)乎于集群用戶進(jìn)行模型訓(xùn)練工作效率。

目前市場上主要的AI平臺廠商，面向商業(yè)公司，主流方法對海量文件的統(tǒng)計非常簡單，直接遍歷存儲中所有文件，得出各個文件目錄的大小，這種方式比較簡單且暴力，“簡單”在于方式比較傳統(tǒng)，遍歷所有文件進(jìn)行文件大小的統(tǒng)計，“暴力”在于在遍歷過程不斷的消耗存儲的資源IO,同時也在不斷消耗的業(yè)務(wù)服務(wù)的CPU和MEM等資源，同時該方法得出統(tǒng)計結(jié)果也不理想，在海量文件下(TB級別以上)統(tǒng)計大小具有延時，且非常耗時，造成統(tǒng)計的結(jié)果有誤差，同時各個AI廠家不斷的優(yōu)化遍歷統(tǒng)計方法，但結(jié)果只能是解決皮毛問題，解決不到根本核心問題。目前AI云廠商，面向客戶人員個體，由于其存儲歸屬于自己管理，所有的存儲文件上傳入口都在自己的存儲服務(wù)器上，該業(yè)務(wù)場景的存儲大小統(tǒng)計方法相比上一種模式比較簡單，他只需要在用戶使用存儲的過程中，上傳和刪除文件進(jìn)行文件大小的更新，同時不斷對用戶存儲目錄的監(jiān)控，可以得到實(shí)時的統(tǒng)計結(jié)果，這種方法效果比較好，但對于私有云場景來說，該方法是無法得到預(yù)期的效果。最后一種現(xiàn)有的存儲統(tǒng)計方法是存儲提供quota配額方法，例如nfs和beegfs等文件裝置，quota配額的優(yōu)點(diǎn)非常明顯，統(tǒng)計的速度快，統(tǒng)計的結(jié)果的準(zhǔn)確，但是只限于存儲的用戶大小統(tǒng)計，其缺點(diǎn)非常明顯，第一是不能統(tǒng)計目錄級別的大小；第二是存儲支持單一，對于AI場景掛載多個存儲并不支持；第三對于AI場景下各業(yè)務(wù)使用大小，也不能統(tǒng)計公共目錄和數(shù)據(jù)集目錄的大?。蛔詈髊uota方案或多或少對存儲性能有些影響。針對AI場景下私有存儲的海量文件大小統(tǒng)計，對存儲資源的網(wǎng)絡(luò)，磁盤，CPU和內(nèi)存的消耗非常大，主流的存儲統(tǒng)計方法在AI場景下并不適用，且AI平臺的任務(wù)訓(xùn)練對存儲的壓力消耗也非常大。

發(fā)明內(nèi)容

為了解決上述現(xiàn)有技術(shù)中存在的技術(shù)問題，本發(fā)明提供了一種存儲增量統(tǒng)計方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。

為實(shí)現(xiàn)上述目的，本發(fā)明實(shí)施例提供了如下的技術(shù)方案：

第一方面，在本發(fā)明提供的一個實(shí)施例中，提供了存儲增量統(tǒng)計方法，該方法應(yīng)用與AI平臺，該方法包括以下步驟：

基于所述底層目錄信息判斷文件目錄是否發(fā)生修改；若發(fā)生修改則將文件目錄的底層子目錄信息入棧；若未發(fā)生修改，則將文件目錄的數(shù)據(jù)庫子目錄信息入棧；

基于入棧的底層子目錄信息和數(shù)據(jù)庫子目錄信息，判斷文件目錄是否存在子目錄，若沒有則出棧；

將棧中的底層子目錄信息和數(shù)據(jù)庫子目錄信息輸入至隊列中；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司，未經(jīng)蘇州浪潮智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202310301511.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。