[發(fā)明專利]基于知識圖嵌入的涉案領(lǐng)域的半監(jiān)督方面級情感分析方法有效
| 申請?zhí)枺?/td> | 202110163044.6 | 申請日: | 2021-02-05 |
| 公開(公告)號: | CN112800229B | 公開(公告)日: | 2022-12-20 |
| 發(fā)明(設(shè)計(jì))人: | 毛存禮;趙培蓮;余正濤;相艷 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 知識 嵌入 涉案 領(lǐng)域 監(jiān)督 方面 情感 分析 方法 | ||
本發(fā)明涉及基于知識圖嵌入的涉案領(lǐng)域的半監(jiān)督方面級情感分析方法,屬于自然語言處理技術(shù)領(lǐng)域。本發(fā)明包括步驟:從涉案微博事件中爬取了包含8個案例、276個涉案熱點(diǎn)話題的涉案領(lǐng)域的微博評論5W+,首先利用少量標(biāo)記數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),通過預(yù)訓(xùn)練得到涉案領(lǐng)域的BERT詞嵌入和涉案領(lǐng)域的知識圖詞嵌入,然后將兩種詞嵌入按照比例拼接放入下游任務(wù)中,從而對特定方面的涉案微博評論進(jìn)行極性的分類。本發(fā)明是實(shí)驗(yàn)過程中獲得的一個最優(yōu)的技術(shù)方案,構(gòu)建的分類模型取得了較好的效果,在典型的涉案微博評論數(shù)據(jù)集上比基線模型分別提高了3.1%。
技術(shù)領(lǐng)域
本發(fā)明涉及基于知識圖嵌入的涉案領(lǐng)域的半監(jiān)督方面級情感分析(Semi-ETEKGs)方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
隨著自媒體時(shí)代的到來、我國新媒體的蓬勃發(fā)展和網(wǎng)絡(luò)輿情的深入,部分法院所審理的焦點(diǎn)案件在網(wǎng)絡(luò)上迅速發(fā)酵,引發(fā)社會的廣泛爭議,司法部門通過實(shí)時(shí)有效的掌握并正確引導(dǎo)網(wǎng)絡(luò)輿情有助于確保法院依法獨(dú)立行使審判權(quán),維護(hù)社會公平正義。而微博作為社會大眾自由評論的社交媒體之一,其用戶量龐大,發(fā)展較快,其中不少司法相關(guān)的案件會在微博中引起激烈討論。因此,為了避免網(wǎng)絡(luò)輿情對法院判決的影響,實(shí)時(shí)掌握用戶對某一涉案熱點(diǎn)事件的觀點(diǎn)意見至關(guān)重要。該任務(wù)可以被視為是自然語言處理(NLP)中的子任務(wù):涉案領(lǐng)域的方面級情感分析(ABSA),旨在從文本中挖掘用戶的情感或者觀點(diǎn)。
方面級情感分析是觀點(diǎn)挖掘的一個子任務(wù),旨在發(fā)現(xiàn)用戶對于特定目標(biāo)的極性判斷。其研究方法主要包括有監(jiān)督的方法和半監(jiān)督的方法。由于每天成千上萬的評論在社交媒體上被產(chǎn)出,將這些評論都進(jìn)行人工標(biāo)注是不可能的事情。因此,一種常見的半監(jiān)督方法(SSL)能夠充分利用好少量標(biāo)注數(shù)據(jù)集,從而估計(jì)在分類器上訓(xùn)練參數(shù)。半監(jiān)督方法已經(jīng)被證明在很多任務(wù)和領(lǐng)域中都取得了不錯的效果。其中Bert等為半監(jiān)督方法提出了一種自監(jiān)督的方法MixMatch,同時(shí)在此基礎(chǔ)上在分布的排列和擴(kuò)增的錨點(diǎn)上改進(jìn)了模型。
發(fā)明內(nèi)容
本發(fā)明提供了基于知識圖嵌入的涉案領(lǐng)域的半監(jiān)督方面級情感分析方法,以用于解決目前涉案微博評論涉案領(lǐng)域知識不能很好的融入到模型和涉案領(lǐng)域中缺乏標(biāo)記的訓(xùn)練語料的問題,本發(fā)明取得較好的情感分類效果。
本發(fā)明的技術(shù)方案是:基于知識圖嵌入的涉案領(lǐng)域的半監(jiān)督方面級情感分析方法,包括:
從涉案微博事件中爬取涉案領(lǐng)域的微博評論,首先利用標(biāo)記數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),通過預(yù)訓(xùn)練得到涉案領(lǐng)域的BERT詞嵌入和涉案領(lǐng)域的知識圖詞嵌入,然后將兩種詞嵌入按照比例拼接放入下游任務(wù)中,從而對特定方面的涉案微博評論進(jìn)行極性的分類。
作為本發(fā)明的進(jìn)一步方案,所述基于知識圖嵌入的涉案領(lǐng)域的半監(jiān)督方面級情感分析方法的具體步驟如下:
Step1、收集用于涉案微博評論的方面級情感分析方法的涉案微博正文和微博評論,根據(jù)微博正文所涉及的案件,對收集的微博評論設(shè)置該案件的案件要素,同時(shí)根據(jù)案件要素對微博評論進(jìn)行去重、篩選,去除與案件無關(guān)的微博評論,同時(shí)標(biāo)記涉案微博評論的評價(jià)對象、所對應(yīng)的評價(jià)觀點(diǎn)詞和涉案微博評論的情感極性;
Step2、利用標(biāo)記的數(shù)據(jù)集進(jìn)行同義詞替換,隨機(jī)插入和隨機(jī)交換方法的數(shù)據(jù)增強(qiáng),利用構(gòu)建的數(shù)據(jù)集基于BERT模型和TransGate模型構(gòu)建預(yù)訓(xùn)練涉案領(lǐng)域的詞嵌入網(wǎng)絡(luò),從而獲得BERT的詞向量和涉案領(lǐng)域的TransKGs詞嵌入;
Step3、對于未標(biāo)記的數(shù)據(jù)集進(jìn)行標(biāo)簽的預(yù)測,并將得到的涉案微博BERT詞嵌入和TransKGs詞嵌入根據(jù)超參數(shù)的設(shè)置按照權(quán)重進(jìn)行加權(quán)融合,獲得帶有涉案領(lǐng)域知識的詞嵌入;
Step4、將獲得的具有涉案領(lǐng)域知識特征的詞向量放入下游任務(wù)中,以此實(shí)現(xiàn)涉案領(lǐng)域微博評論的方面級情感分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110163044.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





