[發明專利]基于句子順序的文本情感極性分類系統和方法無效
| 申請號: | 201010135790.6 | 申請日: | 2010-03-25 |
| 公開(公告)號: | CN102200969A | 公開(公告)日: | 2011-09-28 |
| 發明(設計)人: | 趙凱;邱立坤;胡長建 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 趙偉 |
| 地址: | 100007 北京市東城區東四十*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 句子 順序 文本 情感 極性 分類 系統 方法 | ||
技術領域
本發明涉及自然語言處理領域,更具體地,涉及一種基于句子順序的文本情感極性分類系統和方法。
背景技術
隨著因特網的發展,越來越多的人在網上發布信息,其中包括了很多用戶對產品的評論和個人對事件、政策的看法。這些評論和看法經常發表在購物網站、論壇和個人博客上,對用戶、廠商、調研組織等個人和機構都很有價值。對用戶和廠商而言,這些文本能幫助他們了解產品優缺點并根據評價改進產品,對調研組織等機構而言,可以了解個人對事件和政策的看法,進而建議相關組織和機構實施對策和調整政策。由于這樣的信息很多,人們希望計算機能夠自動地分析、處理和總結,并將結果呈現給用戶。但是由于自然語言的多樣性和隨意性,計算機的自動處理存在多種困難,需要一些技術來解決。
文本分析可以是多層次、多角度的,其中的一種分析是確定文本的情感極性。例如,確定某篇文本是正面的(正面意見),或者負面的(負面意見),或者是中性的。
總的來說,確定文本的情感極性有兩種方式:監督式和非監督式。前者需要一個人工標注的訓練樣本集,然后用機器學習的方法訓練一個模型,再用這個模型對新樣本進行情感判斷。非監督方法不需要訓練樣本集,一般使用人事先定義的詞表判斷一些文本極性,再用迭代的方式修改詞表,并進一步判斷更多的文本的極性。
參考文獻[1](US2009/0125371A1,公開日:2009年5月14日)公開了一種確定文本情感極性的方法,其中采用了無監督和有監督并用的方式。
文本可以是一篇,也可以是多篇。通常情況下是多篇。
首先,通過一些有情感極性的詞確定文本的情感極性,例如“方便”、“豐富”、“細膩”是正面的詞,而“骯臟”、“刺耳”、“丑陋”是負面的詞。這些有情感極性的詞可以用兩種方式確定:(1)由人來判斷,一些現有的字典(例如HowNet情感字典)就是由人判斷而形成的;(2)利用語言知識確定,例如,由于人們常用“不”等否定詞加正面詞來表示負面意義,如“不方便”、“不夠豐富”等,那么根據詞和否定詞的共獻頻率就可以確定一些正面的詞,例如“方便”和“豐富”。
有的情感字典在定義情感詞的同時還給出情感強度。情感強度用一個有符號的數值表示,例如“很好”是+1,“不錯”是+0.5,“差”是-1(正號“+”表示正面詞,負號“-”表示是負面詞,即情感極性可以由情感強度的符號表示)。說明“很好”的強度大于“不錯”,也就是說“很好”比“不錯”更為正面。如果情感字典沒有給出情感強度的話,可以把所有正面詞的情感強度設為+1,并把所有負面詞的情感強度設為-1。這樣,可以認為任何一個情感字典在定義情感詞的同時均給出了情感強度。
利用這些有情感極性的詞確定文本的情感極性的基本原則是:如果一個文本中的代表正面情感的詞的數目大于代表負面情感的詞的數目,或者一個文本中的所有有情感極性的詞(所有代表正面情感的詞和所有代表負面情感的詞)的情感強度的總和為正,則文本被判斷為正面(正極性),反之,則文本被判斷為負面(負極性)。如果數目相等或者情感強度的總和為0,則文本被判斷為中性。
確定文本情感之后,從中選取情感值(情感強度的總和的絕對值)較高(大于預定的選擇閾值)的部分文本,作為比較可信的文本。然后,從這些文本中提取特征。利用這些特征和這些情感值較高的文本,對模型進行訓練,獲得所需的模型。
在完成模型訓練之后,對于任何新的文本,都可以通過訓練后的模型,按照上述方式,自動給出該文本的文本情感(正面、負面或中性)。
但是,參考文獻[1]的文本情感分類過程忽略了情感詞出現的順序,從而有可能導致文本情感的誤判。例如,對于下述兩個例子,就有可能發生文本情感誤判:
1.感覺挺好。考場偏僻了些。題目偏難了些。考得還算順利。
2.失敗。準備挺好。斗志昂揚。到門口發現準考證忘帶了,郁悶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010135790.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種測徑儀光源裝置
- 下一篇:應變傳感器結構及安裝方法





