[發明專利]嵌入情感詞典的注意力機制循環神經網絡文本情感分析法有效
| 申請號: | 201711340972.5 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN108460009B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 陸逸扉;楊偉偉;方梓丞;印鑒;潘文杰 | 申請(專利權)人: | 中山大學;廣州中大南沙科技創新產業園有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入 情感 詞典 注意力 機制 循環 神經網絡 文本 分析 | ||
本發明提供一種嵌入情感詞典的注意力機制循環神經網絡文本情感分析法。該發明主要根據獲取的英文評論,對其情感極性進行標注。通過爬蟲或其他軟件獲取需要的語料集,首先進行去除停用詞的操作,接著采用word2vec算法對處理后的語料進行訓練來得到相應的詞向量。將訓練集輸入到基于注意力機制的循環神經網絡(RNN/LSTM)結構中,在實現注意力權重訓練的過程中,將詞語的情感極性程度嵌入進去,使模型的關注點更接近于人類的理解,最終提高了文本情感分析的準確度。
技術領域
本發明涉及自然語言處理領域,更具體地,涉及一種嵌入情感詞典的注意力機制循環神經網絡文本情感分析法。
背景技術
伴隨著網絡科技的不斷發展,互聯網已逐漸演變為人們發表觀點,交流感情的一個主要的平臺。人們在網上分享、評論和表達對各種事物的意見和看法,例如對電影,商品等的評論,這些評論的數據已呈現出一種爆炸式增長的趨勢,僅僅通過人工手段去篩選出人們對某個事物的積極評論還是消極評論,已成為一項不可能完成的任務,因此一個能自動分析文本情感傾向的工具應運而生。
文本情感分析(SentiWordNet)是對具有情感色彩的主觀性文本進行分析、處理、歸納、和推理的過程,例如根據評論來分析用戶對某個電影的“畫面、音效、劇情、演員陣容”等屬性的情感傾向。從不同立場、出發點、個人態度和喜好出發,人們對不同的對象和事件所表達的態度、意見和情感的傾向性是存在差異的。一般依據需要處理文本的長度的不同,文本情感分析分為詞語級、短語級、句子級和篇章級等幾個研究層次。按照情感粒度的大小不同,文本情感分析又分為細粒度和粗粒度。
發明內容
本發明提供一種嵌入情感詞典的注意力機制循環神經網絡文本情感分析法。
為了達到上述技術效果,本發明的技術方案如下:
一種嵌入情感詞典的注意力機制循環神經網絡文本情感分析法,包括以下步驟:
S1:首先獲取英文文本語料,接著對語料進行情感分類標注,最后將語料分為訓練和測試集兩個集合;
S2:對步驟S1中的所有語料集進行停用詞處理;
S3:使用word2vec算法對步驟S2中獲取的語料進行訓練得到相應的詞向量;
S4:根據sentiwordnet獲取預知的各詞語的情感極性分布,并對句子中極性較大的詞語分配較大的權重;
S5:將訓練集語料放進具有注意力機制的循環神經網絡中進行訓練,在訓練過程中使模型的注意力擬合步驟S4所獲取的詞語的權重;
S6:將步驟S2和步驟S3處理獲取的測試集語料放入步驟S5中,最終獲取測試集的情感分類結果。
進一步地,所述步驟S1的具體過程是:
先通過爬蟲或其它手段獲取具有情感極性的英文文本語料;接著對文本語料進行情感分類標注,文本標注分為積極,中性,消極三種;最后將標注好的文本語料以8:2的比例劃分為訓練集和測試集兩個集合。
進一步地,所述步驟S2的具體過程是:
對獲取的英文語料做去停用詞的處理,去除句子中“the”,“this”,“a”,“an”等不表達情感的詞語。
進一步地,所述步驟S3的具體過程如下:
使用python中的gensim庫,對步驟S2得到的語料進行訓練,通過訓練獲取語料庫中每個詞語對應的詞向量。
進一步地,所述步驟S4的具體過程如下:
S41:根據情感詞典sentiwordnet獲取訓練語料中各詞語對應的客觀值,若某詞語在詞典中有多個客觀值,則取其平均值;若某詞語在詞典中不存在客觀值,則設置其客觀值為1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學;廣州中大南沙科技創新產業園有限公司,未經中山大學;廣州中大南沙科技創新產業園有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711340972.5/2.html,轉載請聲明來源鉆瓜專利網。





