[發明專利]基于多任務學習的篇章級文本連貫性分類方法有效
| 申請號: | 202110667388.0 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113312452B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 趙鐵軍;夏名宏;朱聰慧;徐冰;楊沐昀;曹海龍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 孫莉莉 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 學習 篇章 文本 連貫性 分類 方法 | ||
1.基于多任務學習的篇章級文本連貫性分類方法,其特征在于:具體包括以下步驟:
步驟1、使用預訓練模型得到篇章級文本中每一句話的句子向量表示;
步驟2、將句子向量作為輸入,使用Transformer模型,得到篇章級文本的整體向量表示;
步驟3、構建句子排序任務,使用該任務對篇章級文本的整體向量表示進行調整;
步驟4、根據調整后的篇章級文本整體向量表示通過分類器得到文本連貫性分類;
所述步驟1具體為:
將篇章級文本按照句子粒度進行劃分,得到單個句子,記為{s1,s2,...,sn},n表示句子個數,將每個句子依次通過分詞、詞的id化和生成位置編碼步驟,輸入到XLNet預訓練模型中,取XLNet模型最后一層的輸出作為句子中每個詞的向量化表示,即句si的輸出為{w1,w2,...,wm},i=1,2,...,n;其中,wj為句si中第j個位置詞的向量表示,m表示第i個句子里面詞的個數;j=1,2,...,m;為了得到句向量表示,將句中詞向量進行平均池化,即
其中,vi為句si的向量表示;由此,即可得到篇章中每個句子的向量表示,為{v1,v2,...,vn};
所述步驟2具體為:使用6層sub-layer組成的編碼器進行文本編碼;首先將篇章中每個句子的句子向量輸入到Transformer模型中,進入自注意力模塊,在自注意力模塊中,每個輸入向量通過神經網絡計算得到三個不同向量:Query向量,Key向量和Value向量,三個向量分別用Q,K和V表示,隨后,通過自注意力的計算公式計算每個向量的自注意力分數,并對其進行歸一化,將自注意力分數通過Softmax激活函數,與對應向量相乘,得到自注意力模塊的結果:
其中,dk為歸一化過程中使用的模型向量維度;
隨后,通過殘差模塊,解決深度學習中的退化問題;最后,通過前饋神經網絡,即將自注意力模塊的輸出作為前饋神經網絡的輸入,與前饋神經網絡的權重矩陣相乘,便得到sub-layer的輸出;最終,通過6層sub-layer,得到每個句子向量通過Transformer編碼器的對應輸出;在更新每個句子向量之后,使用平均池化來得到篇章級文本的整體向量表示,其維度與每個句子向量相同,但同時包含了篇章中每個句子信息與句子間的上下文信息;
所述步驟3具體為:首先,由XLNet預訓練模型和Transformer編碼器獲得每個句子的句子向量表示,然后將由句子向量構成的數組sent_list隨機打亂,記為shuffled_sent_list,遍歷打亂后的數組,依次取出相鄰的兩個句子,并與原數組中的順序進行對比,若與原數組中相對順序相同,則其標簽為1,若與原數組中相對順序不同,則其標簽為0;
將兩個句子的向量表示拼接起來,輸入到分類層中,得到分類結果,與其標簽計算交叉熵損失,訓練模型;
其中,針對每個句子及其標簽,使用交叉熵損失進行損失計算,即在句子分數通過Sigmoid函數映射到0到1范圍內后,使用公式(3)計算每個句子的句子排序損失;
lossorder=∑i(-yilogscorei-(1-yi)log(1-scorei)) (3)
其中,i表示第i個句子,yi表示第i個句子的標簽,scorei表示第i個句子的分數。
2.根據權利要求1所述的方法,其特征在于:所述步驟4具體為:得到篇章級文本整體向量表示后,使用三層前饋神經網絡組成分類器,得到最后一層的輸出后,通過Sigmoid函數計算篇章級文本的連貫性分數,從而得到該篇章級文本連貫性分類結果。
3.根據權利要求2所述的方法,其特征在于:所述多任務學習的優化過程具體步驟如下:
步驟一、將整個連貫性分類模型網絡中參數初始化,并將每個loss的權重初始化為1;
步驟二、根據每個loss的權重,計算loss的加權和;
步驟三、計算梯度標準化的值,并計算每個參數的更新速度;
步驟四、根據更新速度,計算全局梯度標準化的值;
步驟五、計算梯度loss;
步驟六、計算loss對每個參數的導數;
步驟七、利用步驟六的結果更新;
步驟八、利用步驟二的結果更新整個網絡的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667388.0/1.html,轉載請聲明來源鉆瓜專利網。





