[發明專利]一種基于ALBERT和LDA的跨域情感分類方法在審
| 申請號: | 202111382116.2 | 申請日: | 2021-11-22 |
| 公開(公告)號: | CN114238627A | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 鄭江濱;曹宏業 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 金鳳 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 albert lda 情感 分類 方法 | ||
1.一種基于ALBERT和LDA的跨域情感分類方法,其特征在于,包括如下步驟:
步驟1:模型訓練與數據預處理;
處理訓練數據集,對訓練數據集中的數據進行分詞和去除停用詞操作;
將處理后的訓練數據集用于ALBERT模型的訓練,得到用于對目標領域數據檢測的ALBERT模型;
使用Amazon提供的無標記訓練數據集,進行主題模型訓練,訓練得到用于文本主題信息提取的LDA模型;
步驟2:對待檢測的輸入文本,首先進行分詞處理,處理后同時輸入ALBERT模型進行目標領域數據檢測和LDA模型進行主題信息提??;
步驟2-1:ALBERT模型將[SEP]作為分隔符,對輸入的分詞后的輸入文本進分隔處理,特殊字符[CLS]用于下游的分類任務,使用ALBERT最后一層輸入的C向量作為句子對的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示輸入文本,d表示d維向量;
步驟2-2:使用LDA模型對輸入文本進行主題信息提?。?/p>
將輸入文本數據按詞劃分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分別表示輸入文本劃分后的各項;
將劃分后的數據項,分別輸入至LDA模型之中,計算得到輸入文本的主題信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t維向量;
步驟2-3:將ALBERT模型的輸出向量C與主題信息T進行組合,得到組合后的數據項F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步驟3:情感分類;
步驟3-1:自適應分類器構建;
采用自適應目標函數學習權重,其目標函數表示為式(5):
式中,λi表示平衡因子,Ti表示情感分類子任務,i表示第i個子任務;
通過自適應動態調節,對權重值λ進行調節,定義fλ(x,y)為樣本對(x,y)在情感分類輸出,定義概率向量為:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分類函數,softmax(.)表示歸一化函數;
目標函數的似然定義如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分別表示子任務;
步驟3-2:通過多目標似然函數計算得到自適應的權重值λ,將組合數據項F輸入至softmax歸一化函數之中,得到:
P=soft max(Fλ) (8)
通過計算情感分類標簽的概率,將概率最大的標簽作為目標數據標簽,從而實現跨域的情感分類。
2.根據權利要求1所述的一種基于ALBERT和LDA的跨域情感分類方法,其特征在于,所述ALBERT模型的參數定義如表1:
表1 ALBERT模型參數定義:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111382116.2/1.html,轉載請聲明來源鉆瓜專利網。





