[發(fā)明專利]預(yù)測(cè)模型的模型參數(shù)更新方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010761179.8 | 申請(qǐng)日: | 2020-07-31 |
| 公開(kāi)(公告)號(hào): | CN111898740B | 公開(kāi)(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計(jì))人: | 任愷 | 申請(qǐng)(專利權(quán))人: | 北京達(dá)佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號(hào): | G06N3/04 | 分類號(hào): | G06N3/04;G06N20/00;G06K9/62 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 馮艷蓮 |
| 地址: | 100085 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 預(yù)測(cè) 模型 參數(shù) 更新 方法 裝置 | ||
本公開(kāi)關(guān)于一種預(yù)測(cè)模型的模型參數(shù)更新方法及裝置。該方法接收工作服務(wù)器對(duì)獲取的模型參數(shù)執(zhí)行模型參數(shù)迭代訓(xùn)練時(shí)發(fā)送的包括模型參數(shù)的當(dāng)前梯度的參數(shù)更新請(qǐng)求,且檢測(cè)出模型參數(shù)的類型為嵌入?yún)?shù)后,通過(guò)采用滿足第一參數(shù)更新算法和當(dāng)前梯度,對(duì)嵌入?yún)?shù)進(jìn)行更新,第一參數(shù)更新算法為所需的內(nèi)存需求量小于預(yù)設(shè)需求量的算法。該方法通過(guò)采用第一參數(shù)更新算法可以降低嵌入?yún)?shù)更新的內(nèi)存使用量,解決了嵌入?yún)?shù)在模型訓(xùn)練期間的內(nèi)存使用量不足的問(wèn)題。
技術(shù)領(lǐng)域
本公開(kāi)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種預(yù)測(cè)模型的模型參數(shù)更新方法及裝置。
背景技術(shù)
現(xiàn)有預(yù)測(cè)模型中模型參數(shù)的更新采用的參數(shù)更新算法主要為自適應(yīng)矩估計(jì)(Adaptive moment estimation,Adam)算法。
與經(jīng)典的機(jī)器學(xué)習(xí)模型或計(jì)算機(jī)視覺(jué)(Computer Vision,CV)和自然語(yǔ)言處理(Natural Language Processing,NLP)使用的深度神經(jīng)網(wǎng)絡(luò)不同,預(yù)測(cè)模型的深度神經(jīng)網(wǎng)絡(luò)中的模型參數(shù)包括大量的嵌入?yún)?shù)和少量的網(wǎng)絡(luò)參數(shù),且嵌入?yún)?shù)在預(yù)測(cè)模型中占用的內(nèi)存資源可達(dá)99.99%以上。
然而,對(duì)于現(xiàn)有的參數(shù)更新算法,采用Adam算法對(duì)預(yù)測(cè)模型中的嵌入?yún)?shù)進(jìn)行更新時(shí),所需的內(nèi)存需求量過(guò)大。通常,Adam算法需要維持至少多達(dá)或者甚至兩倍的模型參數(shù)的數(shù)量,在面對(duì)10倍太字節(jié)級(jí)別(即10TB級(jí)別)的嵌入?yún)?shù)時(shí),將出現(xiàn)內(nèi)存使用量不足的問(wèn)題。
發(fā)明內(nèi)容
本公開(kāi)提供一種預(yù)測(cè)模型的模型參數(shù)更新方法及裝置,以至少解決相關(guān)技術(shù)中在模型訓(xùn)練期間的內(nèi)存使用量不足的問(wèn)題。本公開(kāi)的技術(shù)方案如下:
根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種預(yù)測(cè)模型的模型參數(shù)更新方法,應(yīng)用在所述預(yù)測(cè)模型的參數(shù)服務(wù)器中,包括:
接收工作服務(wù)器對(duì)獲取的模型參數(shù)執(zhí)行模型參數(shù)迭代訓(xùn)練后發(fā)送的參數(shù)更新請(qǐng)求,所述參數(shù)更新請(qǐng)求包括模型參數(shù)的梯度信息;
響應(yīng)于所述參數(shù)更新請(qǐng)求,檢測(cè)所述模型參數(shù)的類型;
若所述模型參數(shù)的類型為預(yù)測(cè)模型的嵌入?yún)?shù),則采用第一參數(shù)更新算法和所述梯度信息中的當(dāng)前梯度,對(duì)所述嵌入?yún)?shù)進(jìn)行更新;其中,所述第一參數(shù)更新算法為所需的內(nèi)存需求量小于預(yù)設(shè)需求量的算法。
在一種可能的實(shí)現(xiàn)中,所述方法還包括:
若所述模型參數(shù)的類型為預(yù)測(cè)模型的網(wǎng)絡(luò)參數(shù),則采用第二參數(shù)更新算法和所述梯度信息中的當(dāng)前梯度,對(duì)所述網(wǎng)絡(luò)參數(shù)進(jìn)行更新;其中,所述第二參數(shù)更新算法為收斂速度大于預(yù)設(shè)速度閾值的算法。
在一種可能的實(shí)現(xiàn)中,采用第一參數(shù)更新算法和所述當(dāng)前梯度,對(duì)所述嵌入?yún)?shù)進(jìn)行更新,包括:
根據(jù)所述嵌入?yún)?shù)的當(dāng)前梯度和所述嵌入?yún)?shù)的歷史梯度,獲取參數(shù)減小量;其中,所述參數(shù)減少量與所述當(dāng)前梯度正相關(guān),與存儲(chǔ)的當(dāng)前的梯度變化量反相關(guān),所述當(dāng)前的梯度變化量表征所述當(dāng)前梯度和所述歷史梯度的梯度變化程度;
根據(jù)所述嵌入?yún)?shù)減小量,對(duì)所述嵌入?yún)?shù)進(jìn)行更新。
在一種可能的實(shí)現(xiàn)中,所述當(dāng)前梯度和所述歷史梯度均包括N個(gè)梯度值,所述N表示所述嵌入?yún)?shù)的維數(shù);
所述當(dāng)前的梯度變化量的獲取步驟包括:
計(jì)算所述嵌入?yún)?shù)中所述N個(gè)維數(shù)中每個(gè)維數(shù)對(duì)應(yīng)的所述當(dāng)前梯度和所述歷史梯度的梯度總量,其中,所述梯度總量與所述N的比值為所述當(dāng)前的梯度變化量。
在一種可能的實(shí)現(xiàn)中,對(duì)所述網(wǎng)絡(luò)參數(shù)進(jìn)行更新之后,所述方法還包括:
根據(jù)對(duì)象推薦系統(tǒng)中每個(gè)預(yù)測(cè)參數(shù)服務(wù)器存儲(chǔ)的嵌入?yún)?shù)的種類,對(duì)更新后的嵌入?yún)?shù)進(jìn)行分組,得到至少一組更新后的嵌入?yún)?shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達(dá)佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達(dá)佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010761179.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





