[發明專利]一種基于概率情感詞典的情感分析系統及方法有效
| 申請號: | 202010781151.0 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN111859925B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 信俊昌;王之瓊;王司亓;隋玲;唐俊日;雷盛楠;汪宇;李嘉欣 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289;G06N3/0464;G06V20/40;G06V10/774;G06V40/16;G06V10/80;G06V10/82 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概率 情感 詞典 分析 系統 方法 | ||
1.一種基于概率情感詞典的情感分析系統進行情感分析的方法,其特征在于,包括兩個階段:
第一階段:多模態情感詞典的構建,包括如下步驟:
步驟1:采用已知情感詞典庫,調用已有的第三方網站的文本情感詞典庫構建本系統的文本情感詞典;
步驟2:導入已經進行過情感標注的圖片訓練集,提取圖片像素點,統計圖片像素值;并構建受限玻爾茲曼機RBM神經網絡對圖片進行特征提取,將提取的特征與已經標注的情感相結合,構建圖片的情感詞典;
步驟3:導入已進行情感標注的視頻訓練集并將其拆分成音頻與視頻圖像,采用音頻特征提取軟件提取音頻特征,并將提取的特征與已經標注的情感相結合,構建音頻的情感詞典;
步驟4:將步驟3中拆分后的圖像導入到3D卷積神經網絡3DCNN中進行行為識別,將行為識別提取的特征向量與已經標注的情感相結合,構建視頻圖像的情感詞典;
第二階段:多模態情感分析,包括如下步驟:
S1:導入數據,分析數據的模態構造并對數據的不同模態即文本、視頻和圖片進行拆分存儲;
S2:將拆分后的文本數據,進行分詞處理,并將分詞后的文本數據進行存儲;
S3:將拆分后的圖片數據,導入深度置信網絡中進行特征提取,將提取出的圖片特征進行存儲;
S4:將拆分后的視頻數據即音頻數據和視頻圖像數據,分別導入音頻特征提取軟件和3DCNN中進行特征提取,分別將提取的音頻與視頻圖像特征進行存儲;
S5:若數據信息文本、音頻和圖像三模態中某一模態的源數據缺失,為了防止因缺失某種模態導致最終情感值出現過大偏差,將未缺失的另外兩種模態放入對抗生成網絡中,輸出對抗生成網絡生成的情感特征數據,將補全后的文本、音頻、圖像的特征信息與情感詞典進行匹配,計算權值;
將兩種模態放入對抗生成網絡中,輸出對抗生成網絡生成的情感特征數據的過程如下:
構建對抗生成網絡中的生成模型以及判別模型,首先對兩個模型網絡進行訓練,利用已進行情感標注的具有完整三模態的訓練集數據對判別模型進行訓練,使其能夠分辨生成模型生成的數據的真偽;
將需要進行情感分析的目標數據導入生成網絡中進行訓練,若數據未缺失模態,則人為去除需要生成的單一模態后進行導入;若數據缺失某一種模態則直接導入;
輸入噪音比較大的隨機數據進入生成模型中,根據導入的兩種模態的情感特征隨機生成一組缺失模態的特征數據;
通過判別模型對生成的特征數據進行判別,當判別結果為造假信息時,生成數據重回生成模型中更新參數重新生成一組特征數據;
不斷循環上述方法,更新生成數據直至判別模型無法分辨其真假,輸出對抗生成網絡生成的特征數據;
S6:若數據信息無缺失模態,依次假定三模態中某一模態缺失,按照S5對數據模態特征進行補全處理,并將對抗生成網絡生成的情感特征與假定缺失的同種類情感特征進行融合共同分析,將文本、音頻、圖像的特征信息與情感詞典進行匹配,計算權值;
S7:構建系統對數據信息的反語判別機制,將通過對抗生成網絡生成的情感特征數據與源數據中的同類模態情感特征進行對比,若兩者情感正負值不同,視為反語,并將源數據該模態的情感值取相反數值進行標識存儲;若源數據中的同類模態缺失,則無法進行判斷;
S8:將S5或S6中計算得出的文本情感值、音頻情感值以及圖像情感值綜合計算三者平均值得出數據信息整體情感值,分析出多模態信息的整體情感為積極或者為消極。
2.根據權利要求1所述的基于概率情感詞典的情感分析系統進行情感分析的方法,其特征在于,所述構建受限玻爾茲曼機RBM神經網絡對圖片進行特征提取的過程如下:
根據圖片的像素點值設置深度置信網絡中RBM的可見層神經元和隱層神經元,假設一個擁有M個像素的圖片,設置第一個深度置信網絡可見層有M個神經元,隱層有M/2個神經元,先將M個像素的圖片輸入到第一個RBM中訓練,訓練好之后得到隱層M/2個神經元的輸出,等于提取了M/2個特征;把這個值保存下來之后輸入第二個RBM,以此類推,根據構建RBM的個數將圖片不斷地進行特征提取,最終由多個RBM構成的深度置信網絡輸出總體結果,實現對圖片的特征提取。
3.根據權利要求1所述的基于概率情感詞典的情感分析系統進行情感分析的方法,其特征在于,所述音頻特征提取軟件為opensmile,通過配置config文件,提取所需的音頻特征。
4.一種執行權利要求1所述的情感分析的方法的基于概率情感詞典的情感分析系統,其特征在于,包括數據層、業務層、接口層和用戶層;
所述數據層存儲對于情感分析算法中所需要使用的不同模態下已標注過情感標簽的訓練集,以及用戶待分析的視頻數據;
所述業務層對數據存儲層的數據進行訓練和分析,包括圖像特征提取模塊、音頻特征提取模塊、文本特征提取模塊和多模態情感分析模塊;所述圖像特征提取模塊提取圖片及從視頻中拆分出來的視頻圖像的特征并存儲;所述音頻特征提取模塊提取從視頻中拆分出來的音頻特征并存儲;所述文本特征提取模塊提取文本信息的特征并存儲;
所述接口層包括待分析視頻輸入接口、情感分析結果可視化接口、應用系統調用接口和web應用調用接口;所述待分析視頻輸入接口將用戶層的待分析視頻傳輸至數據存儲層進行存儲;所述情感分解結果可視化接口將分析結果傳輸至用戶層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010781151.0/1.html,轉載請聲明來源鉆瓜專利網。





