[發明專利]一種基于Word2Vec網絡情感新詞發現的文本傾向性分析方法在審
| 申請號: | 201610239286.8 | 申請日: | 2016-04-18 |
| 公開(公告)號: | CN107305539A | 公開(公告)日: | 2017-10-31 |
| 發明(設計)人: | 陳芬;彭玥;湯麗萍;許青青 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京理工大學專利中心32203 | 代理人: | 馬魯晉 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 word2vec 網絡 情感 新詞 發現 文本 傾向性 分析 方法 | ||
技術領域
本發明屬于自然語言處理領域,特別是一種基于Word2Vec網絡情感新詞發現的文本傾向性分析方法。
背景技術
基于Word2Vec網絡情感新詞發現的文本傾向性分析主要是利用Word2Vec模型來實現網絡情感新詞發現,構造較為完備的正負面詞典,提高文本傾向性分析的準確性。隨著WEB2.0技術的發展,網絡資源與日俱增,越來越多的用戶通過博客、評論網站、論壇等發表自己對社會事件、國家政策等的看法,但僅僅通過人工瀏覽來獲取大眾態度是一件非常繁瑣和困難的事情,因此基于文本傾向性分析的意見挖掘技術應運而生?;谖谋緝A向性分析的意見挖掘相對于主題挖掘,需要對文本進行一定的智能化理解——傾向性分析,在此基礎上提取作者的意見、情感和態度等信息。文本傾向性是用于判斷文本信息中包含的情感傾向的一種技術,它可以將文本的情感區別為正面、負面或中立三種極性。例如句子:“我非常高興見到你?!蓖ㄟ^文本傾向性識別技術,可以判斷這是一個帶有正面傾向的文本。黃萱菁等(2008)將傾向性識別技術分為四個等級:詞語傾向性分析、句子傾向性分析、篇章傾向性分析和海量數據的整體傾向性預測[黃萱菁,趙軍.中文文本情感傾向性分析。
文本傾向性分析一般有兩種主流的分析方法:基于機器學習的方法和基于語義的分析方法。邸鵬等(2014)針對轉折句式,提出了將詞典融入樸素貝葉斯方法中的新的文本傾向性分析方法[邸鵬,李愛萍,段利國.基于轉折句式的文本情感傾向性分析[J].計算機工程與技術,2014,35(12):4289-4295.]。韓中元等(2014)將主客觀分類與褒貶分類融合,改進了邏輯回歸模型,并結合詞典分辨文本的情感傾向性[韓中元,楊沐昀,李生,韓詠,孔蕾蕾,徐冰,齊浩亮.一個面向微博的情感傾向性分析模型[J].智能計算機與應用,2014.4(6):57-60.]。
基于語義的分析方法意味著分詞、語義分析、句法分析等成為研究重點。另一方面,情感詞典在基于語義的文本分析方法中具有無法替代的作用,一個擁有準確的情感詞語,且包含網絡口語化詞語的情感詞典,可以使分析更加準確。而目前專門發現網絡情感詞語的研究還不多,運用比較廣泛的是《知網》提供的“情感分析用詞語集”,它是利用文本文件的形式進行搜索匹配,但這種方式存在大量冗余信息,且缺少口語化的網 絡新詞,無法準確分辨網友的情感。
發明內容
本發明所解決的技術問題在于提供一種利用Word2Vec模型進行網絡情感新詞發現的文本傾向性分析方法。
實現本發明目的的技術解決方案為:一種基于Word2Vec網絡情感新詞發現的文本傾向性分析方法,包括以下步驟:
第一步,文本預處理,將不同的語料預先進行斷句、格式處理、分詞和詞性標注,根據不同的語料布局,分別設置相應的文本讀取方式;
第二步,確定句子中字詞間的依存關系,使用斯坦福大學的句法分析系統進行句法分析;
第三步,詞典發現,利用Word2vec模型來實現網絡情感新詞發現從而得到正負面詞典,并分別獲取程度級別詞典、否定詞詞典和標點符號詞典;
第四步,分數計算,得到所有需要的詞典之后按照抽取出的依存關系,將每個依存關系的主導詞和修飾詞分數相乘,再將句子中每個依存關系的分數求和,得到每個句子的分數,得到最后的分數Score。
本發明與現有技術相比,其顯著優點為:1)本發明利用Google的Word2Vec算法,對大量經過分詞的網絡語料進行無監督學習,可以將詞語轉化為高維詞向量;2)通過計算詞向量之間的距離,得到與現有情感詞極性相同的網絡情感新詞,再加上經過篩選的“情感分析用詞語集”,可形成一部較為完善的情感詞典;3)該方法利用神經網絡模型,速度快且效果好,為準確分析文本的傾向性打下良好基礎。
下面結合附圖對本發明作進一步詳細描述。
附圖說明
圖1是本發明的一種基于Word2Vec網絡情感新詞發現的文本傾向性分析方法流程圖。
圖2是Skip-Gram模型示意圖。
圖3是Word2Vec識別網絡情感詞結果圖。
圖4是文本傾向性分析系統運行結果圖。
具體實施方式
結合圖1,本發明一種基于Word2Vec網絡情感新詞發現的文本傾向性分析方法, 包括以下步驟:
第一步,對語料進行預處理,將不同的語料預先進行斷句、格式處理、分詞和詞性標注,根據不同的語料布局,分別設置相應的文本讀取方式;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610239286.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種子矩陣運算裝置及方法
- 下一篇:地址切分識別方法





