[發明專利]一種結合領域通用型語言模型的領域泛化方法在審
| 申請號: | 202210342805.9 | 申請日: | 2022-03-31 |
| 公開(公告)號: | CN114780722A | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 宋大為;楊藝;張辰;馬放 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 領域 通用型 語言 模型 泛化 方法 | ||
1.一種結合領域通用型語言模型的領域泛化方法,其特征在于,包括以下步驟:
步驟1:預訓練語言模型微調;
使用預訓練語言模型在給定的源域數據進行訓練,利用使用多層感知器微調預訓練語言模型;其中,多層感知器包含四層:全連接層、雙曲正切函數激活函數層、隨機丟棄層和全連接層;
利用訓練好的預訓練語言模型,在目標域數據上獲得經過全連接層的輸出表示并送至軟最大化標準化層,對目標域數據進行相應標簽預測;
步驟2:計算參數域不變分數;
對預訓練語言中的多頭注意力MHA和前饋神經網絡FFN模塊進行裁剪;
對于待裁剪的參數,當數據集中只有一種領域的數據時,其對應的參數重要程度分數I如下式所示:
其中,IFFN分別表示第i個MHA模塊和FFN模塊對應的參數重要程度;(x,y)是指數據點,其中x、y分別表示模型輸入和對應的真實標簽;是損失函數;ξ(i)和υ是MHA和FFN對應的裁剪變量;表示偏導數;D表示領域集合;
在基于參數重要程度分數I的基礎上,提出參數域不變分數I′,對于待裁剪的參數,其對應的參數域不變分數I′如下式所示:
其中,(x,y)是指領域d中的數據點,D是指領域集合;V表示方差,E表示期望;參數域不變分數對將跨領域的參數重要程度分數的均值與方差進行平衡,參數λ用以權衡二者之間的關系;
步驟3:參數裁剪;
對于每個參與域不變分數計算的參數,都有對應的裁剪變量,用以表示該參數是否被裁剪;在對參數進行域不變分數計算后,根據域不變分數對參數進行升序排列,并優先對域不變分數低的參數進行裁剪;
當ξ(i)=0,其對應的注意力頭Head會被裁剪,反之該參數會被保留;當υ=0,其對應的前饋神經網絡FFN會被裁剪,反之該參數會被保留;通過設置裁剪率,將域不變分數最低的參數進行裁剪,即將其對應的裁剪變量置為0;
步驟4:對裁剪后的模型重訓練;
對參數進行裁剪后,將裁剪后的模型進行重訓練;其中,重訓練需要將裁剪后的模型置為步驟1的初始狀態,再讓裁剪后的模型在給定的源域數據進行訓練,然后對目標域數據進行相應標簽預測;
通過設置不同的裁剪率,得到領域泛化效果最好的裁剪后的模型;
步驟5:利用領域通用型預訓練模型,對目標領域數據進行分類預測。
2.如權利要求1所述的一種結合領域通用型語言模型的領域泛化方法,其特征在于,步驟1包括以下步驟:
步驟1.1:加載多領域評論語料集,數據集分為訓練集、驗證集和測試集,并構造成批數據形式;
步驟1.2:加載預訓練語言模型M,初始化后保存;
步驟1.3:模型訓練;
批數據再經過預訓練語言模型結構后獲得句子向量表示;使用多層感知器微調預訓練語言模型;其中,模型訓練的目標函數為交叉熵函數,具體表示形式如下:
其中,m是標簽類別的數量,c表示m的某一類別,N為訓練樣本個數,yic為樣本i為類別c的真實概率,為樣本i為類別c的預測概率;
模型訓練為達到最小交叉熵損失,采用隨機梯度下降法對其進行優化;在模型訓練過程中,每一次訓練后,用驗證集數據對模型進行效果評價,此處采用的評價指標為各領域的平均準確率;在每輪驗證后,保存效果最優的模型M′;
步驟1.4:效果評價;
利用測試集數據對步驟1.3獲得的模型M′進行效果評價;首先加載最優模型M′,將測試集數據作為模型的輸入,預測步驟與步驟1.3相同,此處使用的評價指標與步驟1.3相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210342805.9/1.html,轉載請聲明來源鉆瓜專利網。





