[發明專利]一種面向稀疏數據的個性化情感分析方法與裝置有效
| 申請號: | 202010102417.4 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111325027B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 周德宇;張朦;張林海 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/0442;G06N3/0455;G06N3/048;G06N3/047;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 稀疏 數據 個性化 情感 分析 方法 裝置 | ||
本發明公開了一種面向稀疏數據的個性化情感分析方法與裝置,通過對具有相似打分習慣的用戶分組,利用分組信息來增強用戶表示,實現個性化的情感分析。本方法包括:文檔預處理;使用基于深度神經網絡的基礎情感分析模型計算得到情感打分基礎;使用基于群組的個性化分析模型計算得到情感打分偏移和波動;結合情感打分基礎和情感打分偏移計算最終情感打分。本方法相比之前的個性化情感分析方法,可以在用戶文本數據稀疏的情況下學習得到良好的用戶表示,在個性化情感分析中,可以有效地對用戶建模,更準確地進行個性化情感分析。
技術領域
本發明涉及在數據稀疏的情況下利用用戶文本數據對文本進行情感分析,屬于機器學習技術領域。
背景技術
用戶生成文本情感分析旨在根據用戶撰寫的文本(如一條Twitter或一條購物評論),計算得到一個相應的情感打分(如滿意度)。傳統的情感分析方法認為文本和情感打分之間的映射對所有的用戶來說是相同的,即不區分用戶之間的個體差異性。但是,這樣的假設不符合實際情況。因為由于用戶教育背景、社會經歷等不同,他們情感表達方式也會有一定的區別,所以針對用戶個性化情感分析十分有必要。而現有的一些個性化情感分析方法通常使用一個固定維度的用戶向量來表示每個用戶,用戶向量通常是隨機初始化然后由網絡自己學習得到,這種用戶表示方式對數據和網絡的依賴性很強。根據網絡統計結果顯示,Twitter的大部分用戶是很少發Twitter,而將近80%的Twitter是由10%的活躍用戶發出。這意味著在現實生活中,常常存在用戶數據稀疏的情況,所以解決數據稀疏環境下的個性化情感分析問題有著十分重要的社會意義。
發明內容
發明目的:為了克服現有技術中存在的不足,本發明提供了一種面向稀疏數據的個性化情感分析方法與裝置,能夠處理當前個性化情感分析中的數據稀疏問題。
技術方案:為實現上述目的,本發明所述的一種面向稀疏數據的個性化情感分析方法,包括如下步驟:
(1)對文檔進行預處理;
(2)使用基于深度神經網絡的基礎情感分析模型,以文檔的單詞作為輸入,通過句子級的語義表示學習和文檔級的語義表示學習分別計算得到文檔中每個句子的語義表示和文檔的語義表示,并將文檔的語義表示映射得到的數值作為情感打分基礎;
(3)使用基于群組的個性化情感分析模型,以基于深度神經網絡的基礎情感分析模型得到的文檔的語義表示、用戶向量和全局群組向量作為輸入,通過句子級的用戶表示學習和文檔級的用戶表示學習分別計算得到文檔中每個句子的用戶表示和文檔的用戶表示,并將文檔的用戶表示和基于深度神經網絡的基礎情感分析模型得到的語義表示表示級聯起來作為文檔最終表示,并將文檔的最終表示映射到兩個數值分別作為情感打分偏移和波動;情感打分偏移用于最終的打分計算,情感打分波動用于網絡的優化;
(4)將情感打分基礎和情感打分偏移相加得到最終的情感打分。
進一步地,所述步驟(1)中的文檔預處理包括:對文檔進行分詞,過濾掉文檔中的停用詞和所處理的數據集中僅出現一次的詞。
進一步地,所述步驟(2)中的使用基于深度神經網絡的基礎情感分析模型計算情感打分基礎包括:
(2.1)針對句子中的每個單詞,先映射為一個預先訓練好的詞向量,然后利用雙向長短記憶網絡Bi-LSTM對句子中的每個詞進行編碼得到每個詞的對應的隱狀態;使用注意力機制計算每個詞的權重;最后對每個詞加權求和,得到每個句子的語義表示;
(2.2)是針對文檔中的每個句子,以句子的語義表示作為輸入,利用Bi-LSTM對文檔中的每個句子進行編碼得到每個句子的對應的隱狀態;使用注意力機制計算每個句子的權重;最后對每個句子加權求和,得到文檔的語義表示;
(2.3)使用一個多層感知器對文檔級的語義表示映射到一個數值,即情感打分基礎。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010102417.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





