[發明專利]融入觀點句特征的漢越雙語新聞情感分類方法有效
| 申請號: | 201910635891.0 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110347836B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 余正濤;劉權;相艷;線巖團;林思琦;賴華;王振晗 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/953;G06N3/04 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 李曉亞 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融入 觀點 特征 雙語 新聞 情感 分類 方法 | ||
本發明涉及融入觀點句特征的漢越雙語新聞情感分類方法,屬于自然語言處理技術領域。本發明通過漢越雙語詞嵌入模型將漢語和越南語映射到同一個語義空間中;然后根據新聞文本的特點,使用卷積神經網絡從觀點句中抽取觀點特征,并通過選擇性門控網絡將觀點句特征融入隱藏層中,之后利用層次注意力機制對新聞中的情感信息進行關注,最后通過softmax對情感極性進行分類。本發明有效地提升越南語新聞情感分類的準確性。
技術領域
本發明涉及融入觀點句特征的漢越雙語新聞情感分類方法,屬于自然語言處理技術領域。
背景技術
情感分類是當前自然語言處理研究的熱點問題,如何識別一個新聞文本的情感極性是當前的輿情監控的關鍵問題。通常的情感分類方法主要是構建文本的向量表征進行情感分類。相比較統計特征的文本表征方式,基于神經網絡的文本建模有更好的表達能力,比如卷積神經網絡(CNN)、循環神經網絡(RNN)、Self-attention網絡、Transformer網絡等。這些文本建模方法可以有效捕捉文本的語義信息,建模文本表征。同時,注意力機制可以對文本表征中的情感相關信息進行關注,提升情感分類效果。上述方法可以廣泛應用于評論文本的情感分類任務中;而對于新聞文本來說,其主要是對事實的客觀描述,情感的表達并不明顯。但通過觀察,發現新聞的觀點句中包含較多情感信息,利用這些情感信息有助于新聞情感分類。因此,為了對越南語新聞進行情感分類,提出了一種將觀點句特征融入文檔表征的漢越雙語新聞情感分類方法。
發明內容
本發明提供了融入觀點句特征的漢越雙語新聞情感分類方法,通過漢越雙語詞嵌入模型將漢語和越南語映射到同一個語義空間中;然后根據新聞文本的特點,使用卷積神經網絡從觀點句中抽取觀點特征,并通過選擇性門控網絡將觀點句特征融入隱藏層中,之后利用層次注意力機制對新聞中的情感信息進行關注,最后通過softmax對情感極性進行分類;以用于有效地提升越南語新聞情感分類的準確性。
本發明的技術方案是:融入觀點句特征的漢越雙語新聞情感分類方法,具體步驟如下:
Step1、實驗語料收集:收集漢語、越南語的新聞文本和漢越平行句對;
首先,構建漢越雙語詞嵌入模型需要大量的漢越新聞文本以及少量的漢越平行文本。為此,從漢語和越南語新聞網站中抓取了漢越新聞各35000篇,并且從越南語學習網(http://vie.tingroom.com/)中抓取了10W條漢越平行句對;
Step2、實驗語料標注:為了提供監督學習的應該有的帶有標簽的數據,通過人工的方式標記了4000篇越南文新聞和12000篇中文新聞的觀點句和情感極性,并使用這些標注數據來訓練漢越新聞情感分類模型。在漢越新聞標注數據中,軍事、時政、財經、娛樂4個不同領域的新聞分別占比為25%;
Step3、構建漢越雙語詞嵌入模型:使用標注好的漢語和越南語的新聞文本以及漢越平行句對來訓練漢越雙語詞嵌入模型;
進一步地,所述步驟Step3中,分別使用標注好的漢語和越南語的新聞文本分別訓練漢語和越南語的詞嵌入模型,然后使用漢越平行句對詞嵌入模型聯合訓練得到漢越雙語詞向量。此步驟能獲得漢語和越南語的雙語詞向量,作為序列輸入到后續模型中;
Step4、使用BiLSTM網絡對新聞文本進行建模:使用步驟Step3得到的漢越雙語詞嵌入模型將漢語和越南語標注文本的詞映射到一個語義空間中,然后將漢語或越南語標注文本中的雙語詞向量輸入到雙向LSTM網絡中,對新聞文本進行建模,輸出每一時刻的隱藏狀態;通過雙向LSTM網絡后,能獲得新聞文本的蘊含上下文信息的隱狀態,從而能進行拼接得到一個完成的句子的向量表征;
進一步地,利用步驟Step3構建的漢越雙語詞嵌入模型將漢語、越南語新聞的詞編碼為雙語詞向量,在所述步驟Step4中,將漢語或越南語標注文本中的雙語詞向量輸入到雙向LSTM網絡中,得到文檔中第i句話中第j個詞的隱藏狀態;具體公式為:其中,表示前向LSTM網絡輸出的隱藏狀態,表示后向LSTM網絡輸出的隱藏狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910635891.0/2.html,轉載請聲明來源鉆瓜專利網。





