[發明專利]在多個機器學習任務上訓練機器學習模型在審
| 申請號: | 201780054998.5 | 申請日: | 2017-07-18 |
| 公開(公告)號: | CN109690576A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | G.戴士賈汀斯;R.帕斯卡努;R.T.哈德塞爾;J.柯克帕特里克;J.W.韋內斯;N.C.拉比諾維茨 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習 機器學習模型 訓練機器 可接受 性能水平 訓練數據 學習 度量 | ||
一種訓練具有多個參數的機器學習模型的方法,其中該機器學習模型已經在第一機器學習任務上進行訓練以確定該機器學習模型的參數的第一值。該方法包括:對于每一個參數,確定參數對機器學習模型在第一機器學習任務上實現可接受性能的重要性的相應度量;獲得用于在第二、不同的機器學習任務上訓練機器學習模型的訓練數據;以及,通過在訓練數據上訓練機器學習模型,在第二機器學習任務上訓練機器學習模型以調節參數的第一值,使得機器學習模型在第二機器學習任務上實現可接受性能水平,同時在第一機器學習任務上保持可接受性能水平。
相關申請的交叉引用
本申請要求于2016年7月18日提交的、序列號為62/363,652的美國臨時申請的優先權。該在先申請的公開被認為是本申請公開的一部分,并通過引用并入本申請的公開中。
背景技術
本說明書涉及訓練機器學習模型。
機器學習模型接收輸入,并基于接收到的輸入生成輸出,例如,預測的輸出。一些機器學習模型是參數模型,并基于接收到的輸入和模型的參數值生成輸出。
一些機器學習模型是深度模型,其利用模型的多個層為接收到的輸入生成輸出。例如,深度神經網絡是包括輸出層和一個或多個隱藏層的深度機器學習模型,其中每個隱藏層對接收到的輸入應用非線性變換以生成輸出。然而,機器學習模型在多個任務上訓練時可能會經受“災難性遺忘”,即在學習新任務時丟失先前任務的知識。
一些神經網絡是遞歸神經網絡。遞歸神經網絡是接收輸入序列并根據輸入序列生成輸出序列的神經網絡。具體地,遞歸神經網絡在處理了輸入序列中的先前輸入之后,使用網絡的一些或全部內部狀態,根據輸入序列中的當前輸入生成輸出。
發明內容
本說明書描述了在一個或多個位置處的一個或多個計算機上實施為計算機程序的系統如何在多個機器學習任務上訓練機器學習模型。
總的來說,一個創新方面可以體現在用于訓練具有多個參數的機器學習模型的方法中。機器學習模型已經在第一機器學習任務上進行了訓練以確定機器學習模型的參數的第一值。該方法包括:對于多個參數中的每一個參數,確定參數對機器學習模型在第一機器學習任務上實現可接受性能的重要性的相應度量;獲得用于在第二、不同的機器學習任務上訓練機器學習模型的訓練數據;以及,通過在訓練數據上訓練機器學習模型,在第二機器學習任務上訓練機器學習模型以調節參數的第一值,使得機器學習模型在第二機器學習任務上實現可接受性能水平,同時在第一機器學習任務上保持可接受性能水平,其中,在機器學習模型在第二機器學習任務上進行訓練期間,對機器學習模型在第一機器學習任務上實現可接受性能更為重要的參數的值比對機器學習模型在第一機器學習任務上實現可接受性能的不太重要的參數的值受到更強的約束以不偏離第一值。
在訓練數據上訓練機器學習模型可以包括:調節參數的第一值以使目標函數最優化,更具體地說是旨在使目標函數最小化,該目標函數包括:(i)度量機器學習模型在第二機器學習任務上的性能的第一項,和(ii)對偏離第一參數值的參數值施加懲罰的第二項,其中,第二項對于對在第一機器學習任務上實現可接受性能更為重要的參數與第一值的偏差的懲罰比對在第一機器學習任務上實現可接受性能不太重要的參數更重。對于多個參數中的每一個參數,第二項可以取決于參數的重要性的相應度量和參數的當前值與參數的第一值之間的差的乘積。
在一些實施方式中,訓練可以實施“彈性權重合并(elastic weightconsolidation,EWC)”,其中在第二任務的訓練期間,參數通過彈性懲罰錨定到它們的第一值,這是對調節參數的懲罰,該懲罰隨著距離參數的第一值的距離的增大而增大。彈性懲罰的剛度或程度可以取決于參數對第一任務的重要性的度量,或者更一般地說,取決于參數對任何以前學習過的任務的重要性的度量。因此,彈性權重合并可以作為軟約束實施,例如隨著距離的增加呈二次型,使得每一個權重都以某個量拉回到舊值,該某個量取決于(例如,成比例)其對一個或多個先前執行的任務的重要性的度量。廣義地說,參數由先驗調和,先驗是從(多個)先前任務導出的參數的后驗分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780054998.5/2.html,轉載請聲明來源鉆瓜專利網。





