[發(fā)明專利]一種緩存管理方法與裝置有效
| 申請?zhí)枺?/td> | 201910736101.8 | 申請日: | 2019-08-09 |
| 公開(公告)號: | CN110502487B | 公開(公告)日: | 2022-11-22 |
| 發(fā)明(設(shè)計)人: | 胡葉 | 申請(專利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F16/17 | 分類號: | G06F16/17 |
| 代理公司: | 北京連和連知識產(chǎn)權(quán)代理有限公司 11278 | 代理人: | 劉小峰 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 緩存 管理 方法 裝置 | ||
本發(fā)明公開了一種緩存管理方法與裝置包括:根據(jù)所有計算節(jié)點的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)生成緩存記錄文件并確定各計算節(jié)點的緩存策略;響應(yīng)于本地計算節(jié)點接收到訓(xùn)練任務(wù)而根據(jù)緩存記錄文件確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點;響應(yīng)于本地計算節(jié)點滿足緩存策略要求,而下載訓(xùn)練任務(wù)所需的數(shù)據(jù)集;響應(yīng)于本地計算節(jié)點不滿足緩存策略要求,而基于緩存記錄文件刪除現(xiàn)有緩存數(shù)據(jù)并重新確定本地計算節(jié)點是否滿足緩存策略要求。本發(fā)明能夠管理不同訓(xùn)練數(shù)據(jù)的緩存,根據(jù)實際場景需要來選擇性地下載和刪除,節(jié)省訓(xùn)練數(shù)據(jù)的下載時間并保證計算節(jié)點磁盤存儲的可用性。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)領(lǐng)域,更具體地,特別是指一種緩存管理方法與裝置。
背景技術(shù)
在深度學(xué)習(xí)模型訓(xùn)練的過程中,訓(xùn)練數(shù)據(jù)集越大,數(shù)據(jù)樣本越多,越容易避免訓(xùn)練模型的過擬合問題。但同時,大規(guī)模的數(shù)據(jù)集也為集群管理帶來了挑戰(zhàn),例如一個視頻處理的采集數(shù)據(jù)可達(dá)幾十G甚至上百G,而作為多用戶共享的深度學(xué)習(xí)集群,不同的用戶可能使用相同的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,或者單用戶也會使用不同的數(shù)據(jù)集進(jìn)行訓(xùn)練。由于計算節(jié)點的存儲空間有限,這些訓(xùn)練數(shù)據(jù)不可能同時存放在每個計算節(jié)點供用戶使用,這樣也會造成存儲空間的浪費,如何存放和使用這些訓(xùn)練數(shù)據(jù)也就成為了深度學(xué)習(xí)集群平臺需要解決的問題。
對此現(xiàn)有技術(shù)存在兩種解決方式。一個是通過共享存儲的方式將訓(xùn)練數(shù)據(jù)存放在存儲節(jié)點,然后通過共享掛載的方式將數(shù)據(jù)掛載到計算節(jié)點,計算節(jié)點讀取共享數(shù)據(jù)進(jìn)行訓(xùn)練;另一個是通過云存儲的方式將訓(xùn)練數(shù)據(jù)存放在云端,在訓(xùn)練時首先將數(shù)據(jù)下載到計算節(jié)點本地,訓(xùn)練完成后再將數(shù)據(jù)刪除。然而,通過共享存儲的方式訪問數(shù)據(jù)存在讀寫瓶頸,一些企業(yè)集群由于技術(shù)或者成本原因也不會搭建維護(hù)高性能的共享文件系統(tǒng);另一方面,訓(xùn)練前下載訓(xùn)練后刪除的方式會耗費一大部分時間在數(shù)據(jù)下載上,如果訓(xùn)練后不刪除則可能由于磁盤存儲空間用滿導(dǎo)致其他問題。
針對現(xiàn)有技術(shù)中難以處理訓(xùn)練數(shù)據(jù)緩存的問題,目前尚未有有效的解決方案。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例的目的在于提出一種緩存管理方法與裝置,能夠管理不同訓(xùn)練數(shù)據(jù)的緩存,根據(jù)實際場景需要來選擇性地下載和刪除,節(jié)省訓(xùn)練數(shù)據(jù)的下載時間并保證計算節(jié)點磁盤存儲的可用性。
基于上述目的,本發(fā)明實施例的第一方面提供了一種緩存管理方法,應(yīng)用于計算節(jié)點,包括:
根據(jù)所有計算節(jié)點的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)生成緩存記錄文件并確定各計算節(jié)點的緩存策略,其中緩存記錄文件包括現(xiàn)有緩存數(shù)據(jù)中所有數(shù)據(jù)集的標(biāo)識和所在計算節(jié)點;
響應(yīng)于本地計算節(jié)點接收到訓(xùn)練任務(wù)而根據(jù)緩存記錄文件確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點;
響應(yīng)于訓(xùn)練任務(wù)所需的數(shù)據(jù)集未存儲于任一計算節(jié)點、并且本地計算節(jié)點滿足緩存策略要求,而下載訓(xùn)練任務(wù)所需的數(shù)據(jù)集;
響應(yīng)于訓(xùn)練任務(wù)所需的數(shù)據(jù)集未存儲于任一計算節(jié)點、并且本地計算節(jié)點不滿足緩存策略要求,而基于緩存記錄文件刪除現(xiàn)有緩存數(shù)據(jù)并重新確定本地計算節(jié)點是否滿足緩存策略要求。
在一些實施方式中,確定各計算節(jié)點的緩存策略包括:
確定各計算節(jié)點存儲的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)的最大數(shù)量;和/或
確定各計算節(jié)點存儲的數(shù)據(jù)集的現(xiàn)有緩存數(shù)據(jù)占本地計算節(jié)點的存儲空間的最大百分比。
在一些實施方式中,響應(yīng)于接收到訓(xùn)練任務(wù)而根據(jù)緩存記錄文件確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點包括:
根據(jù)訓(xùn)練任務(wù)確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集的標(biāo)識;
在緩存記錄文件中查找標(biāo)識,根據(jù)緩存記錄文件中是否存在標(biāo)識來確定訓(xùn)練任務(wù)所需的數(shù)據(jù)集是否存儲于任一計算節(jié)點。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910736101.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 逐出高速緩存的行的電路布置、數(shù)據(jù)處理系統(tǒng)和方法
- 共享緩存管理系統(tǒng)及方法
- 分布式緩存系統(tǒng)、數(shù)據(jù)的緩存方法及緩存數(shù)據(jù)的查詢方法
- 一種緩存替換方法;裝置和系統(tǒng)
- 加速引擎及處理器
- 一種日志緩存方法、系統(tǒng)、設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 緩存控制方法、裝置和計算機(jī)可讀存儲介質(zhì)
- 至少具有三個緩存級別的緩存層級的混合低級緩存包含策略
- 基于雙緩存區(qū)的緩存方法、裝置、設(shè)備及存儲介質(zhì)
- 緩存預(yù)載方法、裝置、處理器芯片及服務(wù)器





