[發明專利]一種利用上下文和方面記憶信息的情感分類方法有效
| 申請號: | 201911291726.4 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111079409B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 魏方娜;呂艷霞;鄭瑩 | 申請(專利權)人: | 東北大學秦皇島分校 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F18/24;G06N3/0442;G06N3/08 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 066004 河北省秦*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 上下文 方面 記憶 信息 情感 分類 方法 | ||
1.一種利用上下文和方面記憶信息的情感分類方法,其特征在于,包括以下步驟:
步驟1、選擇待進行情感分析的數據集;
步驟2、建立基于方面的情感分析模型;
所述基于方面的情感分析模型包括上下文記憶構建模塊,方面記憶更新模塊和情感分類模塊;
所述上下文記憶構建模塊包括詞嵌入層、位置相關層和BiLSTM層;
所述詞嵌入層將每個單詞映射成詞嵌入向量之后,將句子和方面用嵌入向量表示;設定輸入的句子是s={w1,w2,...,wn},其中,wn為句子中的第n個單詞,n是句子的長度,方面是a={wt,...,wt+k},其中,k是方面中單詞的個數,即方面的長度,且t+k<n,即方面是句子的子集;將每個單詞映射成詞嵌入向量之后,句子向量表示為vs={e1,e2,...,en};當方面包含單個的單詞時,使用方面單詞的嵌入向量et來表示方面向量va,當方面包含多個單詞時,使用et到et+k這k個嵌入向量均值池化的結果來表示方面向量va;
所述位置相關層計算句子中每個單詞與方面之間的距離,進而得出在句子中每個單詞的位置權重,使得靠近方面的單詞所占的比重增大,而遠離方面的單詞所占的比重減小;對于給定的方面和句子中第i個單詞的位置關系通過位置相關系數gi表示,如下公式所示:
其中,t是方面中第一個單詞的位置,N是一個超參數,n是句子的長度,k是方面的長度;在數據集中,長度小于最大長度的語句的末尾填充零,所以當i>n時,位置相關系數gi=0;
為了使方面的信息被完全考慮,使句子中每個單詞的詞嵌入向量ei和方面向量va上進行相乘再連接的操作來融合文本和方面的信息,計算公式如下所示:
f(ei,va)=[ei;ei⊙va]???????????(2)
其中,符號“⊙”表示點乘操作,符號“;”表示連接操作;
則位置相關層的輸出如公式所示:
xi=f(ei,va)*ga,i∈[1,n]??????????(3)
其中,xi表示結合了位置權重以及方面信息的詞向量;
所述BiLSTM層接收位置相關層的輸出,得到句子中給定單詞的特征表示;
所述BiLSTM層采用雙向LSTMs模型連接句子中單詞前后兩個方向的特征表示,得到句子中給定單詞的特征表示;第i個單詞前向LSTM的細胞狀態和隱藏狀態是從它前一個位置的細胞狀態隱藏狀態和當前的輸入向量xi得到的;第i個單詞后向LSTM的細胞狀態和隱藏狀態是從它后一個位置的細胞狀態隱藏狀態和xi得到的;前向和后向LSTMs表示為:
其中,g(LSTM)表示LSTM的計算;
連接句子中單詞前后兩個方向的輸出表示為:
其中,符號“||”表示連接操作,hi表示單詞i的最終隱藏狀態;
所述方面記憶更新模塊包括hop個計算層,每個計算層均包括多頭注意力層和更新方面記憶層;
所述多頭注意力層使用多頭自注意力機制或多頭編碼解碼注意力機制為每個單詞特征表示設置權重,然后將這些單詞的特征表示和權重聚合起來得到考慮了上下文單詞之間相關性的輸出或考慮了方面和上下文單詞之間相關性的輸出,進而得到最終的句子表示;
所述更新方面記憶層將注意力層輸出的句子表示r與方面向量va相加,從而得到新的方面向量v′a,如下公式所示:
v′a=r+va????????????(13)
將新的方面向量v′a作為下一個計算層的方面向量,將方面向量v′a重新通過下一個計算層的多頭注意力層和更新方面記憶層,直到達到預設的最大的hop數量,hop是一個超參數,需要對其預設定值;
所述情感分類模塊是將在方面記憶更新模塊中進行多次更新方面記憶之后輸出的方面向量v′a輸入到線性層和softmax層來預測方面情感;
步驟3、通過交叉熵損失函數與L2正則化項的和來訓練基于方面的情感分析模型,如下公式所示:
其中,T是訓練集所包含的句子數量,C是所有情感類別的集合,(s,a)表示句子和對應的方面,pc(s,a)表示給定句子s和方面a下的預測的分類概率,yc(s,a)是真實情感類別對應的獨熱碼向量,λ是正則化項的權重,θ是模型中的所有權值參數;
步驟4、將待進行情感分析的數據集通過訓練好的基于方面的情感分析模型,實現文本的情感分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學秦皇島分校,未經東北大學秦皇島分校許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911291726.4/1.html,轉載請聲明來源鉆瓜專利網。





