[發明專利]基于關鍵句的多語言情感數據處理分類方法及系統在審
| 申請號: | 201410198519.5 | 申請日: | 2014-05-12 |
| 公開(公告)號: | CN103995853A | 公開(公告)日: | 2014-08-20 |
| 發明(設計)人: | 程學旗;林政;張瑾;譚松波;徐學可 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵 語言 情感 數據處理 分類 方法 系統 | ||
技術領域
本發明涉及文本情感數據分析,尤其是涉及一種基于關鍵句的多語言情感數據處理分類方法及系統。
背景技術
隨著論壇、博客、評論、微博等網絡交流平臺不斷涌現,人們越來越習慣于在網上發表主觀性評論,這些評論用于表達人們對于日常事件、產品、政策等觀點和看法。與此同時,隨著全球化進程的加快,網絡所提供的信息資源呈現出多語言化的特點。情感分類是一種將文本按照所表達的情感極性分為褒貶的分類任務;多語言情感分類是指利用源語言對其他語言進行情感分類。多語言情感分類,旨在借助最少的資源,研究多語言情感文本所蘊含的觀點、看法和態度,不僅可以參考全球用戶對商品的評價以做出合理的購買決定,而且可以更加及時地了解全世界各國的網絡民意。
目前,多語言情感數據分析主要面臨兩個難點問題,分別是跨語言翻譯過程中出現的語言遷移和情感數據分析的雙重難點問題。
對于語言遷移,主要采用以下兩種方法:
借助統計機器翻譯系統來進行跨語言情感數據分類器遷移。一方面,可以將有標注的源語言數據集翻譯成目標語言,然后在翻譯后的訓練語料上訓練分類器對測試集進行判別;另一方面,可以將目標語言測試集翻譯成源語言,然后直接應用在源語言上訓練的分類器。然而,基于機器翻譯的方法會損失跨語言情感分析的精度。一方面,機器翻譯系統生成唯一解,所以翻譯未必正確;另一方面,機器翻譯系統依賴于訓練集,當目標語言的領域與訓練集相差較大時性能不佳。
借助雙語詞典來進行跨語言情感數據分類器遷移。在有監督學習中,可以先在源語言上學習情感數據分類器,然后借助雙語詞典將特征空間翻譯成目標語言;在無監督學習中,可以將源語言的情感詞典通過雙語詞典翻譯成目標語言。然而,大部分基于雙語詞典的工作在選取翻譯詞的時候沒有考慮情感詞的上下文依賴關系。此外,情感詞的極性(支持或反對)具有領域依賴性,面對不同實體會表現出不同極性,所以將通用的情感詞典用于特定領域往往性能不佳。
對于情感數據分析,主要采用以下三種方法:
在有監督學習的方法中,文本的情感傾向性分析可以看成文本分類過程,借助樸素貝葉斯、最大熵、支持向量機等機器學習的方法對文本傾向性進行判別。以機器學習方法為基礎,還可以進行特征融合或者特征約簡,以進一步提高情感數據分類的性能。
在無監督學習的方法中,情感數據分析在沒有任何標注數據的條件下進行。經典的做法是:首先對文本進行詞性標注,按照預定義的規則選取形容詞和副詞的某些搭配,然后計算每一個搭配與一對極性相反的情感詞,比如excellent(好)和poor(差)的互信息之差,最后對一個文本所有搭配的互信息差進行求和以判斷其情感類別。
在半監督學習的方法中,大量無標注數據與少量有標注數據相結合。半監督學習可以減少有監督學習對標注樣本的依賴,可以取得比無監督學習更好的性能,是一種折中的方法。
然而,以往的情感分析方法并沒有解決評論文本中情感歧義對情感數據分類的干擾問題。情感數據分類和普通文本分類有些類似,但比普通文本分類更復雜。在基于主題的文本分類中,因為主題不同的文本之間詞語運用不同,詞語的領域相關性使得不同主題的文本可以很好的進行區分。然而,情感數據分類的正確率比基于主題的文本分類低很多,這主要是由情感文本中復雜的情感表達和大量的情感歧義造成的。此外,在一篇文章中,客觀句子與主觀句子可能相互交錯,或者一個主觀句子同時具有兩種以上情感,因此文本情感數據分類是一項非常復雜的任務。這里,以一篇網絡上的圖書評論為例:
“很多人說這是一個充滿悲傷、流溢無奈的故事,或許正是這種評論讓我一直沒有勇氣去認真閱讀。我趁人自己是個淪落俗套的人,雖然被拒讓人震撼而且極易深刻,但從感情上更愿意看到美好的大團圓結局,雖然這樣的通話在顯示中是如此脆弱而不堪一擊。
……這本書,我是一口氣看完的,很喜歡。”
文中作者用了大量消極的詞匯來描述閱讀前的感受,比如“悲傷”和“脆弱”,但是在文章結尾,作者又用很積極的態度表達了他是喜歡這本書的。在這個例子中,整篇文本的極性是正面的,但由于出現大量負面詞匯所以很容易被判別成負面的。在判定整篇文章的極性時,文章中所有句子的情感貢獻度是不同的,如果對情感表達關鍵句和描述細節的句子進行區分,將有助于提高文本情感數據分類的性能。
綜上所述,多語言的情感傾向性分析主要存在以下兩個問題:
(1)多語言情感分析過于依賴外部資源
大部分多語言情感分析技術是依賴于機器翻譯或者雙語詞典的。如果沒有機器翻譯系統或編纂好的雙語詞典,多語言情感分析的工作將很難進行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410198519.5/2.html,轉載請聲明來源鉆瓜專利網。





