[發明專利]融入觀點句特征的漢越雙語新聞情感分類方法有效
| 申請號: | 201910635891.0 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110347836B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 余正濤;劉權;相艷;線巖團;林思琦;賴華;王振晗 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/953;G06N3/04 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 李曉亞 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融入 觀點 特征 雙語 新聞 情感 分類 方法 | ||
1.融入觀點句特征的漢越雙語新聞情感分類方法,其特征在于:具體步驟如下:
Step1、收集漢語、越南語的新聞文本和漢越平行句對;
Step2、使用人工標注的方式對漢語、越南語的新聞文本進行觀點句和情感極性的標注;
Step3、使用標注好的漢語和越南語的新聞文本以及漢越平行句對來訓練漢越雙語詞嵌入模型;
Step4、使用步驟Step3得到的漢越雙語詞嵌入模型將漢語和越南語標注文本的詞映射到一個語義空間中,然后將漢語或越南語標注文本中的雙語詞向量輸入到雙向LSTM網絡中,對新聞文本進行建模,輸出每一時刻的隱藏狀態;
Step5、使用卷積神經網絡抽取觀點句特征,并且使用門控網絡將觀點句特征融入到隱藏狀態中;
Step6、使用層次注意力機制對情感信息進行關注:使用層次注意力機制分別從詞級和句子級對情感相關的信息賦予不同的權重,并得到新聞文本的向量化表征;
Step7、使用softmax分類器對新聞的情感極性進行分類;
所述步驟Step5中,使用卷積神經網絡抽取觀點句特征的具體步驟如下:
Step5.1.1、對于標注好的漢語和越南語文本中的每個句子,將前向LSTM網絡和反向LSTM網絡輸出的最后一個隱狀態進行拼接,得到該句子的向量表征si,具體公式為其中表示第i句第Si個詞的前向LSTM網絡輸出的隱藏狀態,表示第i句第1個詞后向LSTM網絡輸出的隱藏狀態;
Step5.1.2、由于新聞文檔中有多個表達觀點的句子,因此將文檔中標記為觀點句的句子的向量表征組成一個矩陣,然后通過多個不同大小的卷積核對該矩陣進行卷積來抽取出觀點句特征s′;
所述步驟Step5中,使用門控網絡將觀點句特征融入到隱藏狀態中的具體步驟如下:
Step5.2.1、將標注后的漢語和越南語文本中每個句子的向量表征si和觀點句特征s′輸入到多層感知機中,得到門控向量sGatei;具體公式為:sGatei=σ(Wssi+Uss′+b);
其中,Ws和Us是權重矩陣,b是偏置項,σ是sigmoid激活函數;
Step5.2.2、將Step4輸出的隱藏狀態hi,j和門控向量sGatei相乘,得到了融入觀點句特征后隱藏狀態h′i,j;具體公式為:h′i,j=hi,j⊙sGatei;其中,⊙表示向量對應元素相乘。
2.根據權利要求1所述的融入觀點句特征的漢越雙語新聞情感分類方法,其特征在于:所述步驟Step3中,分別使用標注好的漢語和越南語的新聞文本分別訓練漢語和越南語的詞嵌入模型,然后使用漢越平行句對詞嵌入模型聯合訓練得到漢越雙語詞向量。
3.根據權利要求1所述的融入觀點句特征的漢越雙語新聞情感分類方法,其特征在于:所述步驟Step4中,將漢語或越南語標注文本中的雙語詞向量輸入到雙向LSTM網絡中,得到文檔中第i句話中第j個詞的隱藏狀態;具體公式為:其中,表示前向LSTM網絡輸出的隱藏狀態,表示后向LSTM網絡輸出的隱藏狀態,其中,漢越雙語詞嵌入模型將漢語、越南語新聞的詞編碼為雙語詞向量。
4.根據權利要求1所述的融入觀點句特征的漢越雙語新聞情感分類方法,其特征在于:所述步驟Step5中,使用觀點句特征來增強新聞文本的情感表達;通過多個不同大小的卷積核來抽取不同粒度的觀點句特征,然后使用選擇性門控網絡將觀點句特征融入模型的隱藏層中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910635891.0/1.html,轉載請聲明來源鉆瓜專利網。





