[發明專利]一種基于新詞擴展與復雜句式擴展的文本情感分析方法有效
| 申請號: | 201911127095.2 | 申請日: | 2019-11-18 |
| 公開(公告)號: | CN111221962B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 劉洪濤;孫桂 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅;陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 新詞 擴展 復雜 句式 文本 情感 分析 方法 | ||
本發明請求保護一種基于新詞擴展與復雜句式擴展的文本情感分析方法,包括步驟:S1,首先根據已有的情感詞典構建基礎詞典,對已有詞典進行清理和篩選;S2,對導入的中文語料進行數據清理,并根據基礎情感詞典對特定領域的情感詞進行擴充;S3,在已有的方法的基礎上,綜合詞頻、詞性和相似度計算,發現特定領域的新詞并添加到基礎詞典中;S4,對中文句式結構進行分析,總結歸納出句式模型,并通過不同的模型來判斷句子情感極性;S5,得出適合本方法的算法選擇器,綜合詞典和句式模型得出句子極性結果。本發明相較于傳統的情感詞典+機器學習方法,專注于在特定領域的短文本句子情感識別,無論是準確率還是召回率都得到明顯提高。
技術領域
本發明屬于文本分類情感分析領域,特別是涉及特定領域短文本情感分類的分析方法。
背景技術
交互的便捷使網絡成為了人們越來越喜歡表達自己觀點和相互交流的主要方式之一。網絡上產生的主觀性文本包含大量有用情感信息。越來越多的人們習慣在這些平臺上表達自身積極、中立或者消極的情緒,以及對使用產品的偏好。因此各種購物網站、微博、論壇等平臺的評論會成為消費者做出購買決策的依據。
由于網絡評價信息非常龐大,依靠人工的方法是不可行的,效率非常低并且也難以找出真正有價值的信息,因此,快速對這些信息進行有效的處理及分析是當前的迫切需求。怎樣把蘊含文本里的情感信息挖掘出來,通過相應技術對網絡評論進行情感傾向性判別是當下的研究熱點。
當前現有的文本情緒分析和情感分類的研究,只是添加了日常網絡用語,卻忽略了特定的詞語在不同的語境下有不同的含義,忽略了特定的情境背景。另外各個社交平臺評論語料中短文本較多,中文句式較隨意,復雜句式結構也給句子情感極性的判斷增加了難度。
鑒于以上問題,本研究主要解決兩方面的內容:特定領域的新詞擴展和基于情感詞組的復雜句式模型。第一方面采用《知網》公開詞典,利用Word2Vec詞向量方法進行詞性和詞頻篩選,將新詞擴展集中在較小特定領域,在通過詞向量之間的相似度計算,得出近義詞組,解決了一些日常用語在不同背景下含義不同的問題;第二方面在關聯詞分類和情感詞組的基礎上構建句式模型,解決了中文短文本在結構和語義方面的問題。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種基于新詞擴展與復雜句式擴展的文本情感分析方法。本發明的技術方案如下:
一種基于新詞擴展與復雜句式擴展的文本情感分析方法,其包括以下步驟:
S1,首先計算機根據網絡公開的情感詞典,如知網HowNet情感詞典和臺灣大學簡體中文情感詞典相結合構建本發明所需的基礎詞典,并對兩個詞典中的重復詞和偏義詞進行清理和篩選;
S2,計算機獲取社交平臺中文預料,對中文語料進行數據清理,并根據基礎情感詞典對特定領域的情感詞進行擴充;
S3,在Word2Vec詞向量的基礎上,綜合詞頻、詞性和相似度計算,獲取領域新詞來擴展基礎詞典;
S4,通過人工對照8種中文復雜句式結構進行分析,總結歸納出基于情感詞組情感極性的通用句式模型,將輸入的句子劃分為不同的模型來判斷句子情感極性;
S5,計算機采用樸素貝葉斯算法分類器,綜合詞典和句式模型得出句子極性結果。
進一步的,所述步驟S1計算構建基礎情感詞典的步驟具體為:
基礎情感詞典的構建本文采取知網Hownet詞典和臺灣大學簡體中文情感詞典相結合,并將兩個詞典進行去重,共取得正向情感詞3646個,負向情感詞9530個,否定詞31個。
進一步的,所述步驟S2數據清理的步驟包括:
(1)剔除html格式代碼,清除URL鏈接;
(2)剔除用戶名;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911127095.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:形成半導體裝置的方法以及相關半導體裝置和系統
- 下一篇:多功能儀表板橫梁夾具





