[發明專利]遷移學習架構、方法、電子設備及存儲介質在審
| 申請號: | 202310074506.6 | 申請日: | 2023-01-13 |
| 公開(公告)號: | CN116245141A | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 徐楓;薄子豪;郭雨晨;戴瓊海 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/0455 | 分類號: | G06N3/0455;G06N3/096 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 黃德海 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 遷移 學習 架構 方法 電子設備 存儲 介質 | ||
1.一種遷移學習架構,其特征在于,包括:
一個或多個上游任務模型,每個上游任務模型包括多頭注意力機制層,且所述多頭注意力機制層整層擴展為專家網絡層;
下游任務模型,所述下游任務模型包括與所述多頭注意力機制層層數相同的專家融合層,所述專家融合層與所述多頭注意力機制層的每層對應,每層專家融合層中專家網絡通過遷移所有上游任務模型的多頭注意力機制層的對應層得到。
2.根據權利要求1所述的遷移學習架構,其特征在于,根據所有上游任務模型的多頭注意力機制層構建下游任務模型的專家融合層,其中,所述專家融合層的層數與所述上游任務模型的數量相同。
3.根據權利要求1所述的遷移學習架構,其特征在于,所述專家融合層包括:
選擇模塊,用于選擇一個或多個專家網絡處理輸入序列的令牌;
專家模塊,所述專家模塊包括上游任務模型的專家網絡和屬于下游任務的專家網絡,每個專家網路處理所述選擇模型選擇的對應令牌;
融合模塊,用于根據選擇模塊輸出的概率值確定每個專家網絡的權重,根據所述每個專家網絡的權重對所有專家網絡的輸出結果進行加權求和。
4.根據權利要求3所述的遷移學習架構,其特征在于,所述選擇模塊包括全連接網絡和分類網絡。
5.根據權利要求3所述的遷移學習架構,其特征在于,所述下游任務模型的訓練包括:
獲取下游任務數據集;
固定所述下游任務模型中來自所述上游任務模型的專家網絡的參數,并利用所述下游任務數據集訓練所述屬于下游任務的專家網絡、所述選擇模塊和任務頭的參數,直到訓練完成。
6.根據權利要求1所述的遷移學習架構,其特征在于,所述上游任務模型的訓練包括:
獲取上游任務數據集;
利用所述上游任務數據集對所述上游任務模型的所有參數進行訓練,直到訓練完成。
7.根據權利要求6所述的遷移學習架構,其特征在于,在所述上游任務模型的訓練過程中,每層多頭注意力機制層隨機丟棄輸入序列的令牌。
8.一種遷移學習方法,其特征在于,所述方法應用于如權利要求1-7任意一項所述遷移學習架構,其中,所述方法包括以下步驟:
獲取訓練完成的一個或多個上游任務模型,其中,每個上游任務模型包括多頭注意力機制層,且所述多頭注意力機制層整層擴展為專家網絡層;
根據所有上游任務模型的多頭注意力機制層構建下游任務模型的專家融合層,其中,所述專家融合層與所述多頭注意力機制層的每層對應,每層專家融合層中專家網絡通過遷移所有上游任務模型的多頭注意力機制層的對應層得到。
9.一種電子設備,其特征在于,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序,以實現如權利要求8所述的遷移學習方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行,以用于實現如權利要求8所述的遷移學習方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310074506.6/1.html,轉載請聲明來源鉆瓜專利網。





