[發(fā)明專利]一種緩存管理方法與裝置有效

申請?zhí)枺?/td>	201910736101.8	申請日：	2019-08-09
公開（公告）號：	CN110502487B	公開（公告）日：	2022-11-22
發(fā)明（設(shè)計）人：	胡葉	申請（專利權(quán)）人：	蘇州浪潮智能科技有限公司
主分類號：	G06F16/17	分類號：	G06F16/17
代理公司：	北京連和連知識產(chǎn)權(quán)代理有限公司 11278	代理人：	劉小峰
地址：	215100 江蘇省蘇州市吳***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種緩存管理方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種緩存管理方法與裝置包括：根據(jù)所有計算節(jié)點的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)生成緩存記錄文件并確定各計算節(jié)點的緩存策略；響應(yīng)于本地計算節(jié)點接收到訓(xùn)練任務(wù)而根據(jù)緩存記錄文件確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點；響應(yīng)于本地計算節(jié)點滿足緩存策略要求，而下載訓(xùn)練任務(wù)所需的數(shù)據(jù)集；響應(yīng)于本地計算節(jié)點不滿足緩存策略要求，而基于緩存記錄文件刪除現(xiàn)有緩存數(shù)據(jù)并重新確定本地計算節(jié)點是否滿足緩存策略要求。本發(fā)明能夠管理不同訓(xùn)練數(shù)據(jù)的緩存，根據(jù)實際場景需要來選擇性地下載和刪除，節(jié)省訓(xùn)練數(shù)據(jù)的下載時間并保證計算節(jié)點磁盤存儲的可用性。

技術(shù)領(lǐng)域

本發(fā)明涉及計算機(jī)領(lǐng)域，更具體地，特別是指一種緩存管理方法與裝置。

背景技術(shù)

在深度學(xué)習(xí)模型訓(xùn)練的過程中，訓(xùn)練數(shù)據(jù)集越大，數(shù)據(jù)樣本越多，越容易避免訓(xùn)練模型的過擬合問題。但同時，大規(guī)模的數(shù)據(jù)集也為集群管理帶來了挑戰(zhàn)，例如一個視頻處理的采集數(shù)據(jù)可達(dá)幾十G甚至上百G，而作為多用戶共享的深度學(xué)習(xí)集群，不同的用戶可能使用相同的數(shù)據(jù)集進(jìn)行模型訓(xùn)練，或者單用戶也會使用不同的數(shù)據(jù)集進(jìn)行訓(xùn)練。由于計算節(jié)點的存儲空間有限，這些訓(xùn)練數(shù)據(jù)不可能同時存放在每個計算節(jié)點供用戶使用，這樣也會造成存儲空間的浪費，如何存放和使用這些訓(xùn)練數(shù)據(jù)也就成為了深度學(xué)習(xí)集群平臺需要解決的問題。

對此現(xiàn)有技術(shù)存在兩種解決方式。一個是通過共享存儲的方式將訓(xùn)練數(shù)據(jù)存放在存儲節(jié)點，然后通過共享掛載的方式將數(shù)據(jù)掛載到計算節(jié)點，計算節(jié)點讀取共享數(shù)據(jù)進(jìn)行訓(xùn)練；另一個是通過云存儲的方式將訓(xùn)練數(shù)據(jù)存放在云端，在訓(xùn)練時首先將數(shù)據(jù)下載到計算節(jié)點本地，訓(xùn)練完成后再將數(shù)據(jù)刪除。然而，通過共享存儲的方式訪問數(shù)據(jù)存在讀寫瓶頸，一些企業(yè)集群由于技術(shù)或者成本原因也不會搭建維護(hù)高性能的共享文件系統(tǒng)；另一方面，訓(xùn)練前下載訓(xùn)練后刪除的方式會耗費一大部分時間在數(shù)據(jù)下載上，如果訓(xùn)練后不刪除則可能由于磁盤存儲空間用滿導(dǎo)致其他問題。

針對現(xiàn)有技術(shù)中難以處理訓(xùn)練數(shù)據(jù)緩存的問題，目前尚未有有效的解決方案。

發(fā)明內(nèi)容

有鑒于此，本發(fā)明實施例的目的在于提出一種緩存管理方法與裝置，能夠管理不同訓(xùn)練數(shù)據(jù)的緩存，根據(jù)實際場景需要來選擇性地下載和刪除，節(jié)省訓(xùn)練數(shù)據(jù)的下載時間并保證計算節(jié)點磁盤存儲的可用性。

基于上述目的，本發(fā)明實施例的第一方面提供了一種緩存管理方法，應(yīng)用于計算節(jié)點，包括：

根據(jù)所有計算節(jié)點的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)生成緩存記錄文件并確定各計算節(jié)點的緩存策略，其中緩存記錄文件包括現(xiàn)有緩存數(shù)據(jù)中所有數(shù)據(jù)集的標(biāo)識和所在計算節(jié)點；

響應(yīng)于本地計算節(jié)點接收到訓(xùn)練任務(wù)而根據(jù)緩存記錄文件確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點；

響應(yīng)于訓(xùn)練任務(wù)所需的數(shù)據(jù)集未存儲于任一計算節(jié)點、并且本地計算節(jié)點滿足緩存策略要求，而下載訓(xùn)練任務(wù)所需的數(shù)據(jù)集；

響應(yīng)于訓(xùn)練任務(wù)所需的數(shù)據(jù)集未存儲于任一計算節(jié)點、并且本地計算節(jié)點不滿足緩存策略要求，而基于緩存記錄文件刪除現(xiàn)有緩存數(shù)據(jù)并重新確定本地計算節(jié)點是否滿足緩存策略要求。

在一些實施方式中，確定各計算節(jié)點的緩存策略包括：

確定各計算節(jié)點存儲的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)的最大數(shù)量；和/或

確定各計算節(jié)點存儲的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)占本地計算節(jié)點的存儲空間的最大百分比。

在一些實施方式中，響應(yīng)于接收到訓(xùn)練任務(wù)而根據(jù)緩存記錄文件確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點包括：

根據(jù)訓(xùn)練任務(wù)確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集的標(biāo)識；

在緩存記錄文件中查找標(biāo)識，根據(jù)緩存記錄文件中是否存在標(biāo)識來確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司，未經(jīng)蘇州浪潮智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910736101.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】