[發明專利]一種基于ALBERT和知識蒸餾的觀點挖掘方法在審
| 申請號: | 202110380265.9 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN112988975A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 劉忠寶;趙文娟;荀恩東 | 申請(專利權)人: | 北京語言大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/951;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波;鄧琳 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 albert 知識 蒸餾 觀點 挖掘 方法 | ||
1.一種基于ALBERT和知識蒸餾的觀點挖掘方法,其特征在于,包括以下步驟:
以ALBERT模型作為教師模型T,Text-CNN模型作為學生模型S,使用原始數據D對教師模型T進行微調,得到適用于觀點挖掘任務的教師模型T1;
通過教師模型T1預測外部數據D1所得的硬標簽對學生模型S進行預訓練指引,將預訓練指引后的模型進行成對參數共享得到學生模型S1;
使用教師模型T1和學生模型S1分別對原始數據D和外部數據D1進行預測得到兩組軟、硬標簽;
聯合軟、硬標簽的交叉熵損失作為總損失反向傳播訓練學生模型S1,得到學生模型S2,作為最終的觀點挖掘模型。
2.根據權利要求1所述的觀點挖掘方法,其特征在于,所述成對參數共享的步驟具體包括:
對學生模型的層數加倍,然后在加倍層數和原層數之間共享參數;
對新增的共享參數層進行參數的隨機減少。
3.根據權利要求1所述的觀點挖掘方法,其特征在于,通過爬蟲工具從網絡上爬取能夠用于觀點分類的數據,得到外部數據D1;在進行知識蒸餾前,先使用教師模型T1對原始數據D和外部數據D1進行預測,得到原始數據D的軟標簽和外部數據D1的軟、硬標簽,同時使用學生模型S1對原始數據D和外部數據D1進行預測,得到原始數據D和外部數據D1的軟、硬標簽,在得到上述預測標簽后,將原始數據D和外部數據D1共同應用于知識蒸餾。
4.根據權利要求1所述的觀點挖掘方法,其特征在于,所述對學生模型S進行預訓練指引包括:在使用教師模型T1對外部數據D1預測得到硬標簽之后,通過外部數據D1和預測所得的硬標簽對學生模型S進行微調。
5.根據權利要求1所述的觀點挖掘方法,其特征在于,所述教師模型為ALBERT模型,采取雙向Transformer模型來獲取文本的特征表示,由多個Encoder-Decoder構成,ALBERT模型使用其中的Encoder部分;
在每個Encoder模塊中,詞嵌入在進入之前首先加入位置信息,之后再進入兩個子網絡,第一個子網絡是多頭自注意力層和歸一化層,第二個子網絡包括前饋層和歸一化層,兩個子網絡之間采用殘差連接;
Transformer模型采用多頭自注意力機制,其公式為:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)W0
其中W0是權重矩陣,用于將每個注意力頭中矩陣拼接后壓縮成序列長度大小;Q,K,V分別代表輸入序列中每個詞的query,key和value向量,對于每個注意力頭來說,都獲取了每條序列文本的自注意力,表示為:
headi=Attention(WiQQ,WiKK,WiVV)
上式中WiQ,WiK,WiV分別是Q,K,V的權重矩陣;
以下公式為注意力的計算方式,dk表示query和key向量的維度:
Softmax為歸一化激活函數,如下式所示:
其中z為N維行向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京語言大學,未經北京語言大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110380265.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種饋線孔拋光裝置及方法
- 下一篇:一種鉸接式端部連接的槽形艙壁





