[發明專利]文本情感極性分類系統和方法有效
| 申請號: | 200910135499.6 | 申請日: | 2009-04-30 |
| 公開(公告)號: | CN101876974A | 公開(公告)日: | 2010-11-03 |
| 發明(設計)人: | 趙凱;邱立坤;胡長建 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 羅松梅 |
| 地址: | 100007 北京市東城區東四十*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 情感 極性 分類 系統 方法 | ||
技術領域
本發明涉及自然語言處理領域,具體地,涉及一種文本情感極性分類系統和方法。
背景技術
隨著因特網的廣泛普及,人與人之間的交流變得更為方便。大部分人在使用了某種產品后,有發表自己的評論和感想的愿望。因特網的發展為這種愿望提供了平臺。目前的多種網站專門建立了產品評論頻道,供用戶發表對產品的評論和感想。這些評論對潛在用戶和生產廠商都是有用的。對潛在用戶而言,這些評論能幫助他們了解產品優缺點并幫助自己做出購買哪種產品的最后選擇,對生產廠商而言,可以幫助他們了解用戶評價并根據評價改進產品。所以對這些產品評論的文本分析是十分有用的技術。
產品評論分析可以是多層次、多角度的,其中一種分析是確定產品評論的文本的情感極性。例如,如果某篇文本的主題(即,產品)是“好的”,則文本具有正情感極性。相反,如果文本的主題是“不好的”,則文本具有負情感極性。還有一類文本是中性的,其主題并沒有偏好。通常,文本的情感極性是通過文本中的詞的情感極性來確定的。表述正面情感的詞(例如,好,漂亮,方便)稱為正情感極性詞,而表述負面情感的詞(例如,壞,丑,混亂)稱為負情感極性詞。
總的來說,確定產品評論的文本的情感極性有兩種方式:監督式和非監督式。前者需要一個人工標注的訓練樣本集,后者不需要。由于訓練樣本集需要人工標注,而且一般是基于領域的,即,不同領域需要不同的訓練樣本集,所以構建的時間和資金成本都比較高。而非監督方法不需要訓練樣本集,所以相對監督式方法而言具有速度快、成本低等優勢。
文獻1(Taras?Zagibalov,John?Carroll.Automatic?Seed?WordSelection?for?Unsupervised?Sentiment?Classification?of?Chinese?Text.COLING2008.pp.1073-1080)描述了確定文本的情感極性的方法。它采用無監督方式,使用迭代算法。首先確定一些有情感極性的詞,稱為種子詞,例如“方便”、“實用”、“細膩”是正面的詞。可以利用語言知識確定種子詞。例如由于人們常用“不”等否定詞加正面詞來表示負面意義,如“不方便”、“不夠實用”等,所以可以根據詞和否定詞的共現頻率來確定一些初始詞,作為種子詞。這些詞的極性一般比較準確,但是這些詞的數目較少,可以用一個迭代過程不斷豐富這些詞。
具體地,參考圖1a,迭代分為兩步。第一步利用現有的有極性的詞(第一次迭代是種子詞)確定文本的情感極性?;驹瓌t是如果一個文本中的正面情感極性詞多于負面情感極性詞,則文本判斷為正極性,反之如果負面情感極性詞多于正面情感極性詞負面,則文本判斷為負極性。如果正面情感極性詞與負面情感極性詞數目相等,則文本判斷為中性。第二步用第一步確定的文本情感極性更新詞的情感極性,存儲到數據庫中。注意這里的詞可以是任意長度的文本串,例如對“這款屏幕色彩豐富”這句話,“這”、“這款”、“這款屏”等都是文本串,都可以有極性。
以上這兩步構成一次迭代。每次迭代結束后,上一次判斷的文本情感極性和詞的情感極性都可能發生改變,例如上一次判斷為正情感極性的文本在下一次可能判斷為負情感極性,而上一次判斷為沒有情感極性的詞下次迭代后可能判斷為有某種情感極性,例如正情感極性。一直到文本和詞的情感極性判斷都不再發生改變時,迭代才停止。圖1b示出了一次迭代過程,首先根據具有情感極性的詞確定文本的情感極性,之后,根據文本的情感極性更新詞的情感極性。其中,<“豐富”,P,30>表示<詞,極性,強度>,<d1,P>表示<文檔,極性>。
文獻1采用的每一次迭代都是根據詞的情感極性判斷文本的情感極性,再根據文本的情感極性判斷詞的情感極性。而詞和文本的情感極性都是可能隨著迭代改變的。即,每一次迭代中所判斷的詞和文本的情感極性可能是錯誤的。而用錯誤的詞和文本情感極性互相計算,就會在迭代的過程中將錯誤逐漸擴大,導致最后的結果與正確結果偏差很大。
發明內容
為了解決使用錯誤的詞和文本情感極性互相計算產生錯誤的結果的問題,本發明提出基于可信度的無監督式文本情感極性分類系統和方法。
根據本發明第一方面,提出了一種文本情感極性分類系統,包括:輸入裝置,用于輸入多個文本;以及文本情感極性分類裝置,用于根據文本中包含的至少一個詞的情感極性確定文本情感極性,并基于文本情感極性可信度迭代地改變文本和詞的情感極性,直到文本或詞的情感極性不發生變化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910135499.6/2.html,轉載請聲明來源鉆瓜專利網。





