[發明專利]一種面向中文Web評論的文本情感分類方法無效

申請號：	201310050250.1	申請日：	2013-02-08
公開（公告）號：	CN103116637A	公開（公告）日：	2013-05-22
發明（設計）人：	李千目;倪銘;印杰;侯君	申請（專利權）人：	無錫南理工科技發展有限公司;江蘇警官學院
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/27
代理公司：	暫無信息	代理人：	暫無信息
地址：	214192 江蘇省無錫市錫***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種面向中文 web 評論文本情感分類方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于數據處理技術領域，具體地涉及一種面向中文Web評論的文本情感分類方法。

背景技術

文本作為一種重要的信息交互媒介，主要的功能是傳情達意，基于內容的研究已經很成熟，近些年來越來越多的研究開始集中到“傳情”上即情感分析，主要的研究內容包括詞語的語義傾向識別、基于情感的文本分類、觀點提取、主觀性分析等。對一篇文檔而言，能對其語義傾向起到決定性作用的主要是構成這篇文檔所用的詞語。所以，對文本進行基于情感的文本分類的基礎是判定詞的語義傾向。但是目前，不論是英語還是漢語，都沒有一個完整的涵蓋詞語語義傾向的詞典，也不可能有這樣的一個完備的詞典，因為很多的詞語在不同語境中它的語義傾向也不盡相同。Hatzivassiloglou等根據詞語之間關系來判定其語義傾向，他們注意到形容詞的語義傾向受連接它們的連接詞“and”、“but”等約束，知道其中一個詞的語義傾向，就可以推測出另一個。如“excellent?and?X”，可以推測X也是褒義的。根據語言學上連接詞對語義傾向約束性的分析，他們提出了一種四步法的有監督學習算法來判斷一個形容詞的語義傾向。Turney在其論文中介紹了兩種利用詞語與具有明顯語義傾向的種子詞語之間統計關系來自動識別詞語語義傾向的方法:?PMI2IR和LSA。Esuli?通過對一個詞語的注釋(從詞典中獲得)進行訓練和分類，從而判斷其他詞語的語義傾向。

基于情感的文本分類研究大多是通過統計正面或負面語義傾向的詞語特征數目來對文本進行分類。如Turney就使用一無指導學習方法，利用前面提到的PMI2IR方法計算出文本中出現的符合規則的短語的語義傾向，通過對文檔中所有短語的語義傾向的平均值的正負來判斷文檔描述的對象是否值得推薦。PangBo最早利用機器學習方法來解決基于情感的文本分類問題，應用樸素貝葉斯、最大熵、SVM對電影評論進行分類。SVM在幾種分類方法中效果最好，分類準確率最高達到約80%。

事實上，對一篇文章而言，它表達的情感的正面或負面是通過主觀語句體現出來的，如“產品質量好!”。但是像“它的售價剛好是50元!”這樣的客觀語句，雖然有“好”這一特征詞，但并不應該能起到任何作用。但是如果能區分一篇文章中的主觀語句和客觀語句，只對主觀語句進行特征選擇，會對分類的準確率有很大提高。Bruce、Wiebe等利用貝葉斯分類器對句子的主客觀性進行分類。PangBo把主客觀語句分類轉換成求圖的最小截問題，實現一個Cut2based分類器，對主客觀語句進行分類。

近年，基于情感的文本分類逐漸被應用到更多的領域中。例如，微軟公司開發的商業智能系統Pulse，它能夠從大量的評論文本數據中，利用文本聚類技術提取出用戶對產品細節的看法;產品信息反饋系統OpinionObserver，利用網絡上豐富的顧客評論資源，對評論的主觀內容進行分析處理，提取產品各個特征及消費者對其的評價，并給出一個可視化結果；Sanjiv從網絡上的股評信息中獲取某只股票的市場評價，對股票的價格進行預測。

中文的基于情感的文本分類研究還不是很多。基于HowNet，朱嫣嵐在其論文中提出了兩種詞語語義傾向性計算的方法:基于語義相似度的方法和基于語義相關場的方法。Yuen通過計算詞語和具有強烈感情色彩的語素或單個漢字之間在LI2VAC文集上的統計關系來判定詞語語義傾向。T’sou利用詞語的語義傾向來計算新聞文本的語義傾向，衡量公眾對名人的評價。

發明內容

1、本發明的目的。

本發明的目的在于提出一種面向中文Web評論的文本情感分類方法，有效地應用于中文評論文本的情感分析。

2、本發明所采用的技術方案

1.一種面向中文Web評論的文本情感分類方法，整個過程可分為兩個部分：訓練過程和分類過程；

訓練過程按照以下步驟進行：

步驟一、訓練文本預處理；

步驟二、特征選擇：用頻數等統計量來計算文本中的詞條在類別中的分布情況，經過特征選擇，得到該類別的局部特征，所有類別的局部特征詞集合的并集構成訓練集的全局特征詞集合；

步驟三、文本的向量化表示：將每個類別映射到全局特征詞集合上，進行向量化表示，便可得到類別的特征向量，特征向量包括權重和特征詞個數；

步驟四、訓練分類器。

分類過程按照以下步驟進行：

測試文本預處理→特征選擇→分類器分類→輸出分類結果，具體處理如下: