[發明專利]一種基于BERT的多特征細粒度中文短文本情感分類方法在審
| 申請號: | 202210066218.1 | 申請日: | 2022-01-20 |
| 公開(公告)號: | CN114443845A | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 丁曉靜;卓勝祥;范華俊;左寧 | 申請(專利權)人: | 序跋網絡科技(上海)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 特征 細粒度 中文 文本 情感 分類 方法 | ||
本發明公開了一種基于BERT的多特征細粒度中文短文本情感分類方法,包含以下步驟:步驟A、多維度特征綜合表達:模型的輸入有效特征包括4種:獨熱編碼特征、位置編碼特征、字形特征、拼音特征;四種特征均有相同的維度大小,進一步求平均后得到一個綜合性的特征表達,該特征經過BERT模型后得到最終的特征表達;BERT Transformer疊加了多個多頭自注意與前向神經網絡模塊,本發明加入的字形與拼音特征一定程度上可兼容輸入文本中的字形相似或者同音字的錯誤,即使發生了這類錯誤也可正確提取相關語義,使模型可自適應于真實世界中的錯誤文本,提高模型預測的準確度。
技術領域
本發明涉及網絡技術領域,具體是一種基于BERT的多特征細粒度中文短文本情感分類方法。
背景技術
情感分析的目標是從文本中分析出人們對于實體及其屬性所表達的情感傾向,這項技術最早的研究始于2003年Nasukawa和Yi兩位學者的關于商品評論的論文。隨著微博等社交媒體以及電商平臺的發展而產生大量帶有情感傾向的內容,給情感分析提供了所需的數據基礎。時至今日,情感分析已經在多個領域被廣泛的應用。例如:在商品零售領域,用戶的評價對于零售商和生產商都是非常重要的反饋信息,通過對海量用戶的評價進行情感分析,可以量化用戶對產品及其競品的褒貶程度,從而了解用戶對于產品的訴求以及自己產品與競品的對比優劣;在社會輿情領域,通過分析大眾對于社會熱點事件的點評可以有效的掌握輿論的走向;在企業輿情方面,利用情感分析可以快速了解社會對企業的評價,為企業的戰略規劃提供決策依據,提升企業在市場中的競爭力;在金融交易領域,分析交易者對于股票及其他金融衍生品的態度,為行情交易提供輔助依據。
現有流行的情感分析模型可大致分為兩個部分:
1、對文本進行特征提取,即進行編碼表示。編碼的方式分為兩種,自回歸與自編碼。自回歸是單向模型,基于Transformer模型中的解碼部分;自編碼是雙向模型,基于Transformer模型中的編碼部分。
Transformer是 Google 團隊在2017年6月提出的 NLP 經典之作, 由AshishVaswani 等人在 2017 年發表的論文Attention Is All You Need中提出。它的模型結構如圖1所示:
實現特征到情感類別的映射,一般是外接一個全連接層與softmax層,將特征轉變為情感類別數維度的特征后將其歸一化得到各類別的概率。
現有技術大多是直接在原始的BERT預訓練模型基礎上加入分類層進行微調。將在大量通用語料上預訓練得到的BERT模型再使用某特定領域語料以及特定任務標注語料進行微調訓練,充分抽取出特定語料在特征任務下的token的內在含義。
現有技術一的缺點如下:
a)原始BERT模型特征過于單一,輸入encode部分的特征僅獨熱編碼向量、位置編碼向量以及token類型向量,其中因為情感分析場景中輸入僅單句,因此token類型向量固定,不具備有效信息。
b)在標注數據稀少的情況下采用現有技術直接進行微調,容易陷入過擬合,無法保證模型的魯棒性。
c)模型會受到分類層初始化以及學習率,batch大小,權重衰減率等其他超參數影響陷入不同的極值點,而各個極值點在不同測試集上的表現優劣不同,如果最終只采用單一模型結果可能在效果上會有所偏頗。
d)業界大多的情感分類標注為2-3個類別,如正向、負向、中性等。在實際應用中這樣 的分類過于簡陋,人類的情感表現與傾向會更細致復雜,因此這樣粗粒度的情感分類信息量過少,不利于后續的深度分析。
發明內容
本發明的目的在于提供一種基于BERT的多特征細粒度中文短文本情感分類方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種基于BERT的多特征細粒度中文短文本情感分類方法,包含以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于序跋網絡科技(上海)有限公司,未經序跋網絡科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210066218.1/2.html,轉載請聲明來源鉆瓜專利網。





