[發(fā)明專利]分布式任務(wù)處理與異步模型訓(xùn)練系統(tǒng)、方法、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202211091395.1 | 申請日: | 2022-09-07 |
| 公開(公告)號: | CN115562820A | 公開(公告)日: | 2023-01-03 |
| 發(fā)明(設(shè)計)人: | 張澤超;董建波;李豪 | 申請(專利權(quán))人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06N3/04;G06N3/08 |
| 代理公司: | 北京太合九思知識產(chǎn)權(quán)代理有限公司 11610 | 代理人: | 張愛;劉戈 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 任務(wù) 處理 異步 模型 訓(xùn)練 系統(tǒng) 方法 設(shè)備 介質(zhì) | ||
本申請實施例提供一種分布式任務(wù)處理與異步模型訓(xùn)練系統(tǒng)、方法、設(shè)備及介質(zhì)。針對由多個第一節(jié)點和多個第二節(jié)點組成的分布式任務(wù)處理系統(tǒng),第一節(jié)點可以從多個第二節(jié)點獲取所需的多個任務(wù)數(shù)據(jù)以執(zhí)行任務(wù),第二節(jié)點可以通過物理網(wǎng)卡向多個第一節(jié)點提供多個任務(wù)數(shù)據(jù)。在能夠不依賴全局同步信息的情況下,對第二節(jié)點下發(fā)到物理網(wǎng)卡的多個任務(wù)數(shù)據(jù)進行調(diào)度規(guī)劃,既通過控制并發(fā)數(shù)保證任務(wù)數(shù)據(jù)從第二節(jié)點到第一節(jié)點的傳輸速度,又通過多個第一節(jié)點的調(diào)度優(yōu)先級調(diào)整各個任務(wù)數(shù)據(jù)的發(fā)送優(yōu)先級,使得多個第二節(jié)點可以在同一發(fā)送窗口發(fā)送同一第一節(jié)點的任務(wù)數(shù)據(jù),便于第一節(jié)點同步獲取所需的多個任務(wù)數(shù)據(jù),解決事務(wù)長尾問題,提升整體的任務(wù)處理效率。
技術(shù)領(lǐng)域
本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種分布式任務(wù)處理與異步模型訓(xùn)練系統(tǒng)、方法、設(shè)備及介質(zhì)。
背景技術(shù)
PS-Worker架構(gòu)是深度學(xué)習(xí)異步訓(xùn)練常見的解決方案之一。在PS-Worker架構(gòu)中,將節(jié)點分為兩類:參數(shù)服務(wù)器(Parameter Server,PS)和工作節(jié)點(Worker),PS用于存儲模型訓(xùn)練所需的參數(shù),Worker負責(zé)模型訓(xùn)練得到參數(shù)的梯度。在每個訓(xùn)練迭代過程中,Worker從PS獲取模型訓(xùn)練所需的參數(shù),然后基于參數(shù)進行模型訓(xùn)練得到參數(shù)的梯度,并將得參數(shù)的梯度返回給PS,PS聚合各Worker返回的參數(shù)的梯度,然后更新參數(shù)以用于后續(xù)迭代過程。
由于PS側(cè)會同時收到來自多個Worker的多個任務(wù)請求,PS通過多線程處理任務(wù)請求后將需要返回的報文(即模型訓(xùn)練所需的參數(shù))通過硬件網(wǎng)卡發(fā)送,在任務(wù)請求數(shù)量較多的情況下,硬件網(wǎng)卡側(cè)需要同時發(fā)送大量的報文,不同任務(wù)請求對應(yīng)的報文會共享網(wǎng)卡帶寬,較大的并發(fā)數(shù)將會導(dǎo)致每個報文的到達時間都被延長,影響整體訓(xùn)練速度。因此,在PS使用的網(wǎng)卡資源有限的情況下,如何提升PS的響應(yīng)速度是分布式訓(xùn)練過程中的一個重要課題。
發(fā)明內(nèi)容
本申請的多個方面提供一種分布式任務(wù)處理與異步模型訓(xùn)練系統(tǒng)、方法、設(shè)備及介質(zhì),用以提高整體的任務(wù)處理效率和響應(yīng)及時性。
本申請實施例提供一種一種分布式任務(wù)處理系統(tǒng),用于對目標(biāo)作業(yè)任務(wù)進行處理,目標(biāo)作業(yè)任務(wù)包括可并行執(zhí)行的多個子任務(wù),該系統(tǒng)包括:用于執(zhí)行多個子任務(wù)的多個第一節(jié)點,以及用于為多個第一節(jié)點提供執(zhí)行子任務(wù)所需的任務(wù)數(shù)據(jù)的多個第二節(jié)點;每個第一節(jié)點對應(yīng)多個第二節(jié)點中的至少兩個第二節(jié)點,用于向至少兩個第二節(jié)點分別發(fā)送任務(wù)請求,并根據(jù)至少兩個第二節(jié)點根據(jù)任務(wù)請求提供的至少兩個任務(wù)數(shù)據(jù)執(zhí)行對應(yīng)的子任務(wù);其中,至少兩個第二節(jié)點向同一第一節(jié)點提供不同的任務(wù)數(shù)據(jù);每個第二節(jié)點對應(yīng)多個第一節(jié)點中的至少兩個第一節(jié)點,用于接收至少兩個第一節(jié)點發(fā)送的至少兩個任務(wù)請求,獲取至少兩個任務(wù)請求對應(yīng)的至少兩個任務(wù)數(shù)據(jù);根據(jù)至少兩個第一節(jié)點的調(diào)度優(yōu)先級,按照預(yù)設(shè)的并發(fā)數(shù)N,在每個發(fā)送窗口從至少兩個任務(wù)數(shù)據(jù)中讀取N個任務(wù)數(shù)據(jù),通過物理網(wǎng)卡將N個任務(wù)數(shù)據(jù)發(fā)送給當(dāng)前被調(diào)度到的N個第一節(jié)點;其中,N是正整數(shù),且小于第一節(jié)點的數(shù)量。
本申請實施例還提供一種異步模型訓(xùn)練系統(tǒng),用于執(zhí)行面向深度學(xué)習(xí)的異步模型訓(xùn)練任務(wù),異步模型訓(xùn)練任務(wù)包括可并行執(zhí)行的多個模型訓(xùn)練子任務(wù),該系統(tǒng)包括多個參數(shù)服務(wù)器和多個工作節(jié)點;每個工作節(jié)點,用于向多個參數(shù)服務(wù)器中至少兩個參數(shù)服務(wù)器發(fā)送參數(shù)獲取請求,并根據(jù)至少兩個參數(shù)獲取請求提供的至少兩個模型參數(shù)執(zhí)行對應(yīng)的模型訓(xùn)練子任務(wù);其中,至少兩個參數(shù)服務(wù)器向同一工作節(jié)點提供不同的模型參數(shù);每個參數(shù)服務(wù)器負責(zé)為多個工作節(jié)點中至少兩個工作節(jié)點提供模型參數(shù),用于接收至少兩個工作節(jié)點發(fā)送的參數(shù)獲取請求,獲取至少兩個參數(shù)獲取請求對應(yīng)的至少兩個模型參數(shù)并將至少兩個模型參數(shù)封裝成至少兩個報文;根據(jù)至少兩個工作節(jié)點的調(diào)度優(yōu)先級,按照預(yù)設(shè)的并發(fā)數(shù)N,在每個發(fā)送窗口從至少兩個報文中讀取N個報文,通過物理網(wǎng)卡將N個報文發(fā)送給當(dāng)前被調(diào)度到的N個工作節(jié)點;其中,N是正整數(shù),且小于工作節(jié)點的數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴(中國)有限公司,未經(jīng)阿里巴巴(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211091395.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





