[發(fā)明專利]一種基于特征表示學(xué)習(xí)的跨領(lǐng)域情感分類方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011185607.3 | 申請(qǐng)日: | 2020-10-30 |
| 公開(公告)號(hào): | CN112199505B | 公開(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 廖祥文;林誠燕;鮑亮;張艷茹;徐慶 | 申請(qǐng)(專利權(quán))人: | 福州大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/30;G06N3/04 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 錢莉;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 表示 學(xué)習(xí) 領(lǐng)域 情感 分類 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于特征表示學(xué)習(xí)的跨領(lǐng)域情感分類方法及系統(tǒng),包括步驟:對(duì)源領(lǐng)域文本與目標(biāo)領(lǐng)域文本進(jìn)行特征化處理,得到源領(lǐng)域初始文本向量與目標(biāo)領(lǐng)域初始文本向量;將源領(lǐng)域初始文本向量與目標(biāo)領(lǐng)域初始文本向量分別特征表示學(xué)習(xí)模塊中,得到源領(lǐng)域文本特征向量與目標(biāo)領(lǐng)域文本特征向量;將源領(lǐng)域文本特征向量與目標(biāo)領(lǐng)域文本特征向量送入特征表示強(qiáng)化模塊中,并進(jìn)行訓(xùn)練;利用訓(xùn)練好的特征表示強(qiáng)化模塊對(duì)目標(biāo)領(lǐng)域的文本特征向量進(jìn)行分類預(yù)測(cè)。本發(fā)明能夠提升目標(biāo)領(lǐng)域文本情感分類的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是一種基于特征表示學(xué)習(xí)的跨領(lǐng)域情感分類方法及系統(tǒng)。
背景技術(shù)
目前,存在許多基于深度學(xué)習(xí)的方法可用于文本情感分類,并且取得了一定的成效,但是這些方法高度依賴人工標(biāo)記數(shù)據(jù),尤其要求訓(xùn)練語料與測(cè)試語料需具有相同特征分布。對(duì)于一些新興領(lǐng)域,存在稀缺的標(biāo)注訓(xùn)練語料,而人工標(biāo)注語料需要耗費(fèi)大量時(shí)間和精力。因此,跨領(lǐng)域文本情感分析方法順勢(shì)而生。通過遷移學(xué)習(xí),在具有豐富語料的領(lǐng)域中學(xué)習(xí)知識(shí),并將學(xué)習(xí)到的知識(shí)遷移到新的領(lǐng)域,從而減少對(duì)新領(lǐng)域標(biāo)注語料的依賴,提高新領(lǐng)域?qū)W習(xí)的性能。但是,由于領(lǐng)域之間對(duì)情感傾向的表達(dá)存在差異性,在具有豐富標(biāo)記語料的源領(lǐng)域中訓(xùn)練得到的情感分類器直接應(yīng)用到稀缺標(biāo)注語料的目標(biāo)域中,目標(biāo)領(lǐng)域情感分類或許達(dá)不到理想的效果。因此,如何學(xué)習(xí)到領(lǐng)域通用情感特征的同時(shí)保留領(lǐng)域特定信息,引起許多研究人員的關(guān)注并提出各種跨領(lǐng)域文本情感分類的方法。
根據(jù)學(xué)習(xí)方法不同,基于遷移學(xué)習(xí)情感分析研究主要分為基于實(shí)例加權(quán)的跨領(lǐng)域情感分類方法、基于特征選擇的跨領(lǐng)域情感分類方法、基于生成對(duì)抗網(wǎng)絡(luò)的跨領(lǐng)域情感分類方法等。
基于實(shí)例加權(quán)的跨領(lǐng)域情感分類方法,主要是通過調(diào)整源領(lǐng)域數(shù)據(jù)的訓(xùn)練權(quán)重,使源領(lǐng)域數(shù)據(jù)盡可能地滿足目標(biāo)領(lǐng)域的數(shù)據(jù)分布,研究者提出TrAdaBoost算法,擴(kuò)展了AdaBoost算法,從源領(lǐng)域中提取可用的標(biāo)注數(shù)據(jù),與少量標(biāo)記目標(biāo)數(shù)據(jù)相結(jié)合,以構(gòu)建比僅使用標(biāo)記目標(biāo)數(shù)據(jù)更為準(zhǔn)確的模型。但是在遷移過程不可避免出現(xiàn)負(fù)面遷移的問題,反而會(huì)降低目標(biāo)領(lǐng)域情感分類的性能。
基于特征選擇的跨領(lǐng)域情感分類方法,通過挖掘源領(lǐng)域與目標(biāo)領(lǐng)域中樞軸特征和非樞軸特征,構(gòu)建領(lǐng)域特征之間的映射關(guān)系,尋找不同領(lǐng)域間通用的特征空間,在此通用空間上進(jìn)行情感分類。研究人員提出一種結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)方法,通過對(duì)不同領(lǐng)域與樞軸特征的相關(guān)性進(jìn)行建模,以識(shí)別特征間的對(duì)應(yīng)關(guān)系。之后研究人員還提出結(jié)合源領(lǐng)域標(biāo)簽的互信息更高效地挑選樞軸特征,大幅改善了結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)方法的情感分類性能。但是這些方法在進(jìn)行領(lǐng)域適應(yīng)之前,需要人工選擇領(lǐng)域的樞軸特征,然而人工選擇過程中存在主觀性,得到的樞軸并不都是準(zhǔn)確的。基于生成對(duì)抗網(wǎng)絡(luò)的跨領(lǐng)域情感分析研究是將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用在跨領(lǐng)域場(chǎng)景下,學(xué)習(xí)領(lǐng)域間共同情感特征和共享參數(shù)。研究人員利用梯度反轉(zhuǎn)層,通過最小化情感標(biāo)簽分類器的損失和最大化領(lǐng)域分類器的損失,使得分類算法無法判斷輸入樣本的領(lǐng)域來源,從而學(xué)習(xí)一種領(lǐng)域適應(yīng)的特征表示學(xué)習(xí)方法。然而該方法缺乏了可解釋性,無法充分證明網(wǎng)絡(luò)是否充分學(xué)習(xí)到了領(lǐng)域適應(yīng)的文本特征,仍有很大的探索空間。因此人們希望找到一種更加高效的跨領(lǐng)域情感分類方法,進(jìn)而提高跨領(lǐng)域情感分類的精度和減少人工時(shí)間精力的消耗。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提出一種基于特征表示學(xué)習(xí)的跨領(lǐng)域情感分類方法及系統(tǒng),通過最大化兩個(gè)情感分類差異,能夠檢測(cè)出處于源領(lǐng)域邊界附近的目標(biāo)域樣本,然后通過不同卷積核大小的CNN捕獲文本關(guān)鍵信息,最小化源域和目標(biāo)域之間的差異,使目標(biāo)域樣本更接近于源域樣本,最終提升目標(biāo)領(lǐng)域文本情感分類的效果。
本發(fā)明采用以下方案實(shí)現(xiàn):一種基于特征表示學(xué)習(xí)的跨領(lǐng)域情感分類方法,具體包括以下步驟:
對(duì)源領(lǐng)域文本與目標(biāo)領(lǐng)域文本進(jìn)行特征化處理,得到源領(lǐng)域初始文本向量與目標(biāo)領(lǐng)域初始文本向量;
將源領(lǐng)域初始文本向量與目標(biāo)領(lǐng)域初始文本向量分別特征表示學(xué)習(xí)模塊中,得到源領(lǐng)域文本特征向量與目標(biāo)領(lǐng)域文本特征向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011185607.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





