[發(fā)明專利]一種基于ALBERT和LDA的跨域情感分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111382116.2 | 申請(qǐng)日: | 2021-11-22 |
| 公開(公告)號(hào): | CN114238627A | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 鄭江濱;曹宏業(yè) | 申請(qǐng)(專利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 西北工業(yè)大學(xué)專利中心 61204 | 代理人: | 金鳳 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 albert lda 情感 分類 方法 | ||
本發(fā)明公開了一種基于ALBERT和LDA的跨域情感分類方法,首先進(jìn)行模型訓(xùn)練與數(shù)據(jù)的預(yù)處理,使用訓(xùn)練數(shù)據(jù)集對(duì)ALBERT模型進(jìn)行訓(xùn)練,得到用于對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)檢測(cè)的ALBERT模型,同時(shí),使用目標(biāo)領(lǐng)域的數(shù)據(jù)集進(jìn)行主題模型訓(xùn)練,得到用于文本主題信息提取的LDA模型;隨后針對(duì)輸入的文本信息進(jìn)行處理,使用ALBERT對(duì)該數(shù)據(jù)進(jìn)行處理,得到處理后的向量,同時(shí)將該文本輸入至LDA模型進(jìn)行主題信息檢測(cè),得到文本主題信息,將處理后的向量與文本主題信息進(jìn)行結(jié)合,輸入到一個(gè)自適應(yīng)分類器之中進(jìn)行情感分類,最終輸出情感分類標(biāo)簽。本發(fā)明實(shí)現(xiàn)了多領(lǐng)域文本的分類,避免了擴(kuò)充目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)集的問題,提升了模型的訓(xùn)練時(shí)間,減少了空間復(fù)雜度。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言技術(shù)領(lǐng)域,具體涉及一種跨域情感分類方法。
背景技術(shù)
大規(guī)模語言模型已廣泛應(yīng)用于自然語言處理的多類應(yīng)用之中,語言模型在語義分析,情感分類、問答系統(tǒng)以及機(jī)器翻譯等領(lǐng)域展現(xiàn)了強(qiáng)大的性能,但是,當(dāng)目標(biāo)領(lǐng)域數(shù)據(jù)與模型的訓(xùn)練數(shù)據(jù)存在差異時(shí),大規(guī)模語言模型的檢測(cè)效果將會(huì)下降,增加目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)是一種改進(jìn)方式,但是手動(dòng)標(biāo)記目標(biāo)領(lǐng)域數(shù)據(jù),需要消耗大量的人力成本,并且隨著訓(xùn)練數(shù)據(jù)集的增加,模型的訓(xùn)練參數(shù)將會(huì)迅速增加,模型訓(xùn)練將會(huì)需要更長(zhǎng)的時(shí)間、更大的內(nèi)存空間。
隨著深度學(xué)習(xí)的發(fā)展,更多的深度學(xué)習(xí)方法應(yīng)用在跨域的數(shù)據(jù)情感分類任務(wù)上,在深度神經(jīng)語言模型BERT的基礎(chǔ)上,將文本表示的元數(shù)據(jù)與知識(shí)圖進(jìn)行嵌入結(jié)合,聯(lián)合訓(xùn)練的方法使得該模型在多標(biāo)簽數(shù)據(jù)集上取得了較好的檢測(cè)效果。通過對(duì)目標(biāo)領(lǐng)域以及源域的數(shù)據(jù)進(jìn)行分析,構(gòu)建出數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)跨域的情感分類。但是當(dāng)目標(biāo)域與源域數(shù)據(jù)差異較大時(shí),對(duì)兩個(gè)領(lǐng)域的數(shù)據(jù)進(jìn)行關(guān)聯(lián)關(guān)系的建立較為困難,如何將目標(biāo)域的信息與源域數(shù)據(jù)進(jìn)行結(jié)合是一個(gè)關(guān)鍵問題。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于ALBERT和LDA的跨域情感分類方法,首先進(jìn)行模型訓(xùn)練與數(shù)據(jù)的預(yù)處理,使用訓(xùn)練數(shù)據(jù)集對(duì)ALBERT模型進(jìn)行訓(xùn)練,得到用于對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)檢測(cè)的ALBERT模型,同時(shí),使用目標(biāo)領(lǐng)域的數(shù)據(jù)集進(jìn)行主題模型訓(xùn)練,得到用于文本主題信息提取的LDA模型;隨后針對(duì)輸入的文本信息進(jìn)行處理,使用ALBERT對(duì)該數(shù)據(jù)進(jìn)行處理,得到處理后的向量,同時(shí)將該文本輸入至LDA模型進(jìn)行主題信息檢測(cè),得到文本主題信息,將處理后的向量與文本主題信息進(jìn)行結(jié)合,輸入到一個(gè)自適應(yīng)分類器之中進(jìn)行情感分類,最終輸出情感分類標(biāo)簽。本發(fā)明實(shí)現(xiàn)了多領(lǐng)域文本的分類,避免了擴(kuò)充目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)集的問題,提升了模型的訓(xùn)練時(shí)間,減少了空間復(fù)雜度。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包括如下步驟:
步驟1:模型訓(xùn)練與數(shù)據(jù)預(yù)處理;
處理訓(xùn)練數(shù)據(jù)集,對(duì)訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行分詞和去除停用詞操作;
將處理后的訓(xùn)練數(shù)據(jù)集用于ALBERT模型的訓(xùn)練,得到用于對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)檢測(cè)的ALBERT模型;
使用Amazon提供的無標(biāo)記訓(xùn)練數(shù)據(jù)集,進(jìn)行主題模型訓(xùn)練,訓(xùn)練得到用于文本主題信息提取的LDA模型;
步驟2:對(duì)待檢測(cè)的輸入文本,首先進(jìn)行分詞處理,處理后同時(shí)輸入ALBERT模型進(jìn)行目標(biāo)領(lǐng)域數(shù)據(jù)檢測(cè)和LDA模型進(jìn)行主題信息提取;
步驟2-1:ALBERT模型將[SEP]作為分隔符,對(duì)輸入的分詞后的輸入文本進(jìn)分隔處理,特殊字符[CLS]用于下游的分類任務(wù),使用ALBERT最后一層輸入的C向量作為句子對(duì)的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示輸入文本,d表示d維向量;
步驟2-2:使用LDA模型對(duì)輸入文本進(jìn)行主題信息提取;
將輸入文本數(shù)據(jù)按詞劃分成式(2)所示形式:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111382116.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于Albert模型的預(yù)測(cè)數(shù)據(jù)標(biāo)注的方法、裝置及設(shè)備
- 基于BM25+ALBERT模型的偽相關(guān)反饋信息檢索方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種結(jié)合ALBERT和BiGRU的專利文本分類方法
- 一種基于albert預(yù)訓(xùn)練模型和kmean算法的評(píng)論標(biāo)簽提取的方法
- 一種基于Albert模型的改進(jìn)預(yù)測(cè)方法、系統(tǒng)及裝置
- 基于ALBERT的模型構(gòu)建方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于ALBERT的武器裝備實(shí)體抽取方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種基于ALBert的復(fù)雜重型裝備實(shí)體抽取方法
- 基于聯(lián)邦學(xué)習(xí)的語音表征模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)
- 一種基于ALBERT與多重詞信息嵌入的命名實(shí)體識(shí)別方法
- 光掃描裝置以及圖像形成裝置
- 基于LDA主題模型的中醫(yī)藥數(shù)據(jù)挖掘方法
- 一種用于LDA的外腔鎖模波長(zhǎng)合束裝置和方法
- 高功率板條激光放大器
- 一種基于潛在狄利克雷分配(LDA)模型的關(guān)鍵詞推薦方法和系統(tǒng)
- 一種基于K-means和LDA雙向驗(yàn)證的網(wǎng)絡(luò)行為習(xí)慣聚類方法
- 一種基于word2vec?LDA模型的文本主題詞提取方法
- 一種基于平行語料庫的跨語種新聞主題相似性對(duì)比方法
- 信息推薦方法及裝置
- 興趣點(diǎn)數(shù)據(jù)獲取方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備





