[發明專利]一種基于預訓練模型的閱讀理解去偏方法在審
| 申請號: | 202211222708.2 | 申請日: | 2022-10-08 |
| 公開(公告)號: | CN115526148A | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 于舒娟;吳夢潔;趙陽;張虎;張昀 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06K9/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210023 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 閱讀 理解 偏方 | ||
1.一種基于預訓練模型的閱讀理解去偏方法,其特征在于:包含步驟如下:
以預訓練模型BERT嵌入層為基礎構建文本表示層,設定模型輸入為文章-問題構成的句子對,將輸入句子映射為句子向量;
對位置編碼進行兩次隨機正則化操作,得到兩個隨機子模型并計算KL散度,評估其輸出分布差異性,更新句子向量輸入BERT編碼器;
將BERT編碼器最后一個隱層輸出通過全連接層與分類器,以交叉熵損失與KL散度之和計算樣本的預測損失,在模型訓練過程中根據樣本的預測損失優化預訓練參數,去除閱讀理解位置偏差。
2.根據權利要求1所述的基于預訓練模型的閱讀理解去偏方法,其特征在于:
對位置編碼進行兩次隨機正則化操作,包括:
采用dropout技術對BERT初始化的位置編碼按概率進行兩次隨機置0操作,獲得兩個被弱化位置信息的位置編碼向量,并取它們的均值與其余編碼相加得到更新的句子向量,用公式表示為:
;
其中,L表示為輸入序列的最大長度;d表示為每個token向量表示的長度;表示更新后的句子向量;表示每個token對照詞表組成的Token embedding;表示改進前的位置編碼;表示區分問題與文章的Segment embedding;表示隨機置零操作。
3.根據權利要求2所述的基于預訓練模型的閱讀理解去偏方法,其特征在于:
所述L為512,所述d為768。
4.根據權利要求1所述的基于預訓練模型的閱讀理解去偏方法,其特征在于:
所述KL散度計算公式為:
;
其中i表示第i組訓練樣本,表示KL散度的計算,和表示位置編碼在dropout操作后兩個不同的子模型產生的不同分布,由于 KL 散度本身具有不對稱性,需要交換這兩種分布的位置,最終得到平均處理過的KL散度。
5.根據權利要求1所述的基于預訓練模型的閱讀理解去偏方法,其特征在于:
所述的BERT編碼器為Transformer編碼器結構,包括堆疊的12層編碼模塊,每層編碼模塊的隱藏狀態尺寸為768,并包括12個注意力頭。
6.根據權利要求1所述的基于預訓練模型的閱讀理解去偏方法,其特征在于:
所述損失函數包括交叉熵與正則化位置編碼的KL散度,交叉熵與正則化位置編碼的KL散度的比例由可調超參數決定,交叉熵損失與總訓練損失和的具體計算公式為:
;
;
其中,i表示第i組訓練樣本;N表示樣本數量;表示答案在第i個樣本中的真實起始位置; 表示答案在第i個樣本中的真實結束位置;表示預測文本序列每個位置是答案起始位置的概率;是交叉熵與正則化位置編碼的KL散度比例的可調超參數;表示交叉熵損失值,表示正則化位置編碼的KL散度值,表示總訓練損失和。
7.根據權利要求1所述的基于預訓練模型的閱讀理解去偏方法,其特征在于:
模型訓練使用的數據集為抽取式閱讀理解數據集SQuAD1.1及其依照答案所在文章段落的位置劃分而成的子數據集,在達到最佳精確度時對應的KL散度與交叉熵之比為3,dropout隨機置0概率為0.1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211222708.2/1.html,轉載請聲明來源鉆瓜專利網。





