[發明專利]基于融合特征的網絡短文本情感分析方法在審
| 申請號: | 202210437256.3 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114817536A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 牟雪峰;李海明 | 申請(專利權)人: | 上海電力大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/335;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 丁振英 |
| 地址: | 201306 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 融合 特征 網絡 文本 情感 分析 方法 | ||
本發明提出了一種基于融合特征的網絡短文本情感分析方法,首先改進了對彈幕數據集的標注方法,彈幕是一種特殊的短文本,在標注彈幕時同時考慮視頻的內容可以更準確地反映彈幕的真實情感。相較于傳統彈幕標注只考慮文本本身的方法,提高了文本分析的準確性。然后構建了一個基于文本和時間雙通道的特征融合的短文本情感分析模型,文本通道使用ERNIE和文本卷積神經網絡(TextCNN)對彈幕的深層語義特征進行進一步地提取,并融合字向量特征、詞向量特征以及時間特征,從而加強彈幕的語義表達,使得彈幕的語義表達更加準確,從而有效提高分類效果。
技術領域
本發明屬于文本分類領域,具體涉及一種基于融合特征的網絡短文本情感分析方法。
背景技術
彈幕發源于日本,最早是指一種街機射擊游戲,玩家可以使用武器在屏幕上發射大量的子彈。2006年出現了第一個彈幕視頻網站:NICONICO。觀眾在觀看視頻時可以通過瀏覽器發送文字實時分享自己的看法,這些文字以類似子彈劃過屏幕的方式投射在視頻上,因此稱為“彈幕”。
目前,對于彈幕的研究主要集中在文化和傳播領域,關于彈幕的情感分析研究較少。傳統的彈幕情感分析只考慮文本本身,把彈幕當成一般的短文本。但是,彈幕與傳統的微博、電影和商品評論等不同,它由觀眾實時發布,與視頻內容高度關聯,省略的信息較多,形式多樣,文本較短且結構復雜。彈幕省略的信息隱藏在視頻內容中以及與其時間上相鄰的彈幕中。因此,判斷一條彈幕的情感傾向,還應該結合視頻內容進行進一步的判斷。但是,視頻的特征表達非常困難,我們可以用彈幕的發送時間加以代替。一般來說,在相近時間內發送的彈幕有相似的語義特征。在彈幕的情感分析研究中,時間一般用于標記視頻的高光片段,研究用戶的行為模式,協助視頻的推薦和分類算法,很少有人考慮將彈幕的發送時間作為特征之一引入到情感分析的方法中。
同時,傳統的彈幕數據集使用機器學習的方法和傳統的人工標注方法,存在兩個缺陷。首先,機器學習的標注方法依賴于模型的性能,而目前的模型并不能很好的處理信息語義缺失的短文本,因此會產生比較多的標注錯誤的數據;其次,傳統的人工標記方法只關注文本本身,對于彈幕這一類與承載它的內容相關的文本,如果只關注文本而忽視視頻內容,同樣也會產生較多的錯誤的標注數據。
發明內容
針對以上問題,本發明首先改進了數據的標注方法,提出了一個更加準確的彈幕情感數據集。然后構建了一種改進的彈幕情感分類方法,結合彈幕的字特征和詞特征來加強彈幕的語義表示,并通過引入時間特征和外部知識來緩解彈幕的語義稀疏問題,提高了情感分類的準確度。
本發明提供了一種基于融合特征的網絡短文本情感分析方法,其特征在于,包括以下步驟:步驟S1,對待測原始彈幕數據進行情感極性的標注生成標注后數據;步驟S2,構建并使用預定訓練集訓練得到基于文本和時間雙通道的短文本情感分析模型,該模型具有輸入層、嵌入層、融合層以及分類層;步驟S3,將標注后數據輸入至短文本情感分析模型中,通過輸入層提取對應的文本信息和時間信息;步驟S4,由嵌入層對文本信息和時間信息進行向量化處理,分別得到與文本信息對應的字向量、詞向量以及和時間信息對應的時間向量;步驟S5,將字向量和詞向量作為融合層的輸入,進行深度特征提取得到字特征向量、詞特征向量,并將字、詞特征向量與時間向量拼接得到彈幕特征向量;步驟S6,通過分類層計算彈幕特征向量的文本標簽的類別概率,從而得到待測原始彈幕數據的情感類別分析結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海電力大學,未經上海電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210437256.3/2.html,轉載請聲明來源鉆瓜專利網。





