[發(fā)明專利]一種結合域對抗訓練的強化實例遷移學習方法在審
| 申請?zhí)枺?/td> | 202210425704.8 | 申請日: | 2022-04-21 |
| 公開(公告)號: | CN114997394A | 公開(公告)日: | 2022-09-02 |
| 發(fā)明(設計)人: | 鄭海濤;馮玲云;江勇;夏樹濤;肖喜 | 申請(專利權)人: | 清華大學深圳國際研究生院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 深圳新創(chuàng)友知識產(chǎn)權代理有限公司 44223 | 代理人: | 方艷平 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 對抗 訓練 強化 實例 遷移 學習方法 | ||
本發(fā)明公開了一種結合域對抗訓練的強化實例遷移學習方法,采用包括領域判別模塊、遷移學習模塊和數(shù)據(jù)選擇模塊的強化遷移學習模型進行強化實例遷移學習,包括:訓練領域判別模塊和遷移學習模塊分別最大化和最小化兩個領域數(shù)據(jù)的特征距離;通過對抗訓練的方式使得遷移學習模塊學習領域不變特征;數(shù)據(jù)選擇模塊根據(jù)遷移學習模塊的輸出對源領域數(shù)據(jù)進行數(shù)據(jù)選擇,并輸出給遷移學習模塊;遷移學習模塊、領域判別模塊和據(jù)選擇模塊進行協(xié)同訓練,使得強化遷移學習模型能夠從源領域數(shù)據(jù)中挑選出有用的數(shù)據(jù)以用于幫助強化遷移學習模型在目標領域數(shù)據(jù)的學習。本發(fā)明能夠解決傳統(tǒng)遷移學習過程中由于目標領域和源領域數(shù)據(jù)分布不同導致的負遷移問題。
技術領域
本發(fā)明涉及計算機應用技術領域,尤其涉及一種結合域對抗訓練的強化實例遷移學習方法。
背景技術
深度神經(jīng)網(wǎng)絡在計算機視覺和自然語言處理領域都取得了巨大的成功,其優(yōu)異的表現(xiàn)十分依賴于充足的訓練數(shù)據(jù)。然而,獲取足夠多的訓練數(shù)據(jù)需要花費大量的時間和成本。遷移學習是一種利用資源豐富的源領域數(shù)據(jù)幫助資源稀缺的目標領域的學習的經(jīng)典方法,近年來,基于神經(jīng)網(wǎng)絡的遷移學習(也稱深度遷移學習)在自然語言處理領域和計算機視覺領域都取得了優(yōu)異的表現(xiàn),獲得了廣泛的應用。但是,由于源領域和目標領域的數(shù)據(jù)分布不同,普通的深度遷移方法可能會存在負遷移的問題。
以上背景技術內容的公開僅用于輔助理解本發(fā)明的構思及技術方案,其并不必然屬于本專利申請的現(xiàn)有技術,在沒有明確的證據(jù)表明上述內容在本專利申請的申請日已經(jīng)公開的情況下,上述背景技術不應當用于評價本申請的新穎性和創(chuàng)造性。
發(fā)明內容
為解決上述技術問題,本發(fā)明提出一種結合域對抗訓練的強化實例遷移學習方法,能夠解決傳統(tǒng)遷移學習過程中由于目標領域和源領域數(shù)據(jù)分布不同導致的負遷移問題。
為了達到上述目的,本發(fā)明采用以下技術方案:
本發(fā)明公開了一種結合域對抗訓練的強化實例遷移學習方法,采用包括領域判別模塊、遷移學習模塊和數(shù)據(jù)選擇模塊的強化遷移學習模型進行強化實例遷移學習,包括以下步驟:
S1:訓練所述領域判別模塊最大化源領域數(shù)據(jù)和目標領域數(shù)據(jù)的特征距離;
S2:訓練所述遷移學習模塊最小化源領域數(shù)據(jù)和目標領域數(shù)據(jù)的特征距離;
S3:通過步驟S1和步驟S2的對抗訓練的方式使得所述遷移學習模塊學習領域不變特征;
S4:將所述遷移學習模塊的輸出作為強化學習的狀態(tài)信號輸出給所述數(shù)據(jù)選擇模塊,所述數(shù)據(jù)選擇模塊根據(jù)所述狀態(tài)信號對源領域數(shù)據(jù)進行數(shù)據(jù)選擇,并將數(shù)據(jù)選擇后的源領域數(shù)據(jù)輸出給所述遷移學習模塊;
S5:所述遷移學習模塊、所述領域判別模塊和所述數(shù)據(jù)選擇模塊通過執(zhí)行步驟S1至S4以進行協(xié)同訓練,使得所述強化遷移學習模型能夠從所述源領域數(shù)據(jù)中挑選出有用的數(shù)據(jù)以用于幫助所述強化遷移學習模型在目標領域數(shù)據(jù)的學習。
優(yōu)選地,所述領域判別模塊包括領域判別器和梯度反轉層,步驟S1具體為:通過梯度反轉層訓練所述領域判別器最大化源領域數(shù)據(jù)和目標領域數(shù)據(jù)的特征距離。
進一步地,步驟S4中還包括:將所述遷移學習模塊在數(shù)據(jù)選擇后的表現(xiàn)作為獎勵信號輸出給所述數(shù)據(jù)選擇模塊,且在所述數(shù)據(jù)選擇模塊對源領域數(shù)據(jù)進行數(shù)據(jù)選擇的過程中還采用所述獎勵信號來指導所述數(shù)據(jù)選擇模塊的學習。
進一步地,步驟S5中所述遷移學習模塊、所述領域判別模塊和所述數(shù)據(jù)選擇模塊通過執(zhí)行步驟S1至S4以進行協(xié)同訓練具體為:所述遷移學習模塊、所述領域判別模塊和所述數(shù)據(jù)選擇模塊通過執(zhí)行步驟S1至S4將數(shù)據(jù)以批的方式進行協(xié)同訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經(jīng)清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210425704.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





