[發明專利]基于知識圖嵌入的涉案領域的半監督方面級情感分析方法有效
| 申請號: | 202110163044.6 | 申請日: | 2021-02-05 |
| 公開(公告)號: | CN112800229B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 毛存禮;趙培蓮;余正濤;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 嵌入 涉案 領域 監督 方面 情感 分析 方法 | ||
1.基于知識圖嵌入的涉案領域的半監督方面級情感分析方法,其特征在于,包括:從涉案微博事件中爬取涉案領域的微博評論,首先利用標記數據進行數據增強,通過預訓練得到涉案領域的BERT詞嵌入和涉案領域的知識圖詞嵌入,然后將兩種詞嵌入按照比例拼接放入下游任務中,從而對特定方面的涉案微博評論進行極性的分類;
所述基于知識圖嵌入的涉案領域的半監督方面級情感分析方法的具體步驟如下:
Step1、收集用于涉案微博評論的方面級情感分析方法的涉案微博正文和微博評論,根據微博正文所涉及的案件,對收集的微博評論設置該案件的案件要素,同時根據案件要素對微博評論進行去重、篩選,去除與案件無關的微博評論,同時標記涉案微博評論的評價對象、所對應的評價觀點詞和涉案微博評論的情感極性;
Step2、利用標記的數據集進行同義詞替換,隨機插入和隨機交換方法的數據增強,利用構建的數據集基于BERT模型和TransGate模型構建預訓練涉案領域的詞嵌入網絡,從而獲得BERT的詞向量和涉案領域的TransKGs詞嵌入;
Step3、對于未標記的數據集進行標簽的預測,并將得到的涉案微博BERT詞嵌入和TransKGs詞嵌入根據超參數的設置按照權重進行加權融合,獲得帶有涉案領域知識的詞嵌入;
Step4、將獲得的具有涉案領域知識特征的詞向量放入下游任務中,以此實現涉案領域微博評論的方面級情感分類;
所述Step3的具體步驟:
Step3.1、對于未標記的數據,先預測未標記數據的標簽,其中和表示標記的擴增數據和未標記的擴增數據;然后,基于MixMatch的思想對標記數據和未標記數據進行插值,通過三個步驟得到最終的混合數據:
(a)首先,定義了一個微調修改版的MixMatch適應損失函數,其中α是Beta樣本分布的超參數;
λ~Beta(α,α) (1)
λ'=max(λ,1-λ) (2)
(b)通過公式(3)和公式(4)得到最終的樣本數據集,其中(x1,p1)和(x2,p2)是兩個帶有預測標簽的樣本,λ'為了設置標記數據和未標記數據的比例閾值,根據公式(2)確保混合數據集更趨近原始數據集;
x'=λ'(BERT(x1))+(1-λ')(BERT(x2)) (3)
p'=λ'(BERT(p1))+(1-λ')(BERT(p2)) (4)
(c)最后,為了更好的訓練,將得到的混合數據進行隨機洗牌;
Step3.2、對于標記的數據集和擴增的數據集,直接按照權重將兩種詞嵌入進行混合,利用β超參數來決定Trans-KGs嵌入和BERT嵌入的比重;然后就能得到混合層中每個字符的嵌入記為:
其中,表示通過知識圖訓練得到的涉案領域字符嵌入,表示BERT預訓練后的字符嵌入。
2.根據權利要求1所述的基于知識圖嵌入的涉案領域的半監督方面級情感分析方法,其特征在于:所述Step1中,構建的涉案微博正文和微博評論的數據集,是使用Scrapy作為爬取工具,模仿用戶操作,登錄微博,獲取涉案微博正文和微博評論,包含8個案例及其的276個熱點話題的微博評論。
3.根據權利要求1所述的基于知識圖嵌入的涉案領域的半監督方面級情感分析方法,其特征在于:所述Step1中,對根據微博正文所涉及的案件,對收集的微博評論設置該案件的案件要素,同時標記涉案微博評論的評價對象、所對應的評價觀點詞和涉案微博評論的情感極性包括:
Step1.1、設置的涉案微博評論的評價對象的標注體系采用了json格式的標記文本,首先根據涉案微博評論所涉及的案件,將案件的要素根據要素定義制定出來,主要包括每個案件的事發地點、人物案件要素,并標注出涉案微博評論的評價對象,分別標注評價對象,評價觀點詞和對應的情感極性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110163044.6/1.html,轉載請聲明來源鉆瓜專利網。





