[發明專利]多種語言文本數據分類處理方法無效
| 申請號: | 201310397617.7 | 申請日: | 2013-09-04 |
| 公開(公告)號: | CN103488623A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 程學旗;林政;張瑾;譚松波;徐學可 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多種 語言 文本 數據 分類 處理 方法 | ||
技術領域
本發明涉及數據處理領域,涉及海量文本數據傾向性分析,尤其是面向多語言(不熟悉語言)的自動情感分類方法。
背景技術
隨著互聯網的快速發展和全球化進程的加快,因特網所提供的信息資源呈現出多語言化的特點。全球標準互聯網用戶調查和分析權威機構Nielsen?Net?Ratings的調查數據顯示,從2000年到2008年的9年間,全世界各種語言的網絡使用增長率達到305.5%。因特網資源的多語言性及用戶對母語和非母語熟悉程度的差異性,不可避免地給用戶利用網絡信息帶來了語言障礙。
網絡正悄然無息地影響著人們的生活習慣,隨著論壇、博客、評論、微博等網絡交流平臺不斷涌現,人們越來越習慣于在網上發表主觀性的言論,這些言論用于表達自己對于日常事件、產品、政策等的觀點和看法,使得網上存在大量帶有情感傾向性的文本。情感分析是一種重要的信息組織方式,研究的是自動挖掘和分析文本中的立場、觀點、看法、情緒、好惡等主觀信息。
多語言情感分析具有極其重要的研究意義:
從理論上看,情感傾向性分析是自然語言處理、人工智能、甚至認知科學領域所面臨的重要研究課題之一。情感傾向性研究所取得的每一個進步,都有助于加深我們對人類的智能、語言、思維等問題的了解。
網絡因其開放性和虛擬性,已經成為民意表達的重要通道和空間。利用多語言的情感傾向性分析技術,可以更加及時地了解世界各地網絡社會民意。
同時,多數產品生產、銷售廠商希望通過跟蹤用戶對產品的回饋意見來獲得改進產品質量的針對性意見;潛在的消費者也希望通過網上真實的評價信息來調整個人的購買意向。利用多語言情感傾向性分析技術對多語言的產品評論觀點進行組織和分類,有利于人們更全面地了解產品,培育潛在消費群體。
綜上所述,多語言情感傾向性分析研究不但具有深遠的理論價值,而且有著廣闊的應用前景,可以創造較大的社會和經濟效益。
近年來,特定語言(比如英文或中文)的情感傾向性研究取得了很大的進步,然而多語言(非特定語言或不熟悉語言)的情感傾向性研究卻沒有太大突破。
通常情況下,多語言的情感分類主要通過跨語言的思路來解決,大致歸納為以下三種:
采用KCCA(Kernel?Canonical?Correlation?Analysis)、LSI(Latent?Semantic?Indexing)等方法,不依賴于翻譯資源,以平行語料為基礎完成源和目標語言的空間轉換。LSI方法是跨語言信息檢索領域常用的僅依據平行語料就可以進行源和目標語言空間轉換的方法。但是,雙語平行語料依然是稀缺資源,大規模的雙語平行語料獲取不易,而且每切換一種語言就需要一批雙語平行語料,代價太高。
借助統計機器翻譯系統來進行跨語言情感分類器遷移。一方面,可以將有標注的源語言數據集翻譯成目標語言,然后在翻譯后的訓練語料上訓練分類器對測試集進行判別;另一方面,可以將目標語言測試集翻譯成源語言,然后直接應用在源語言上訓練的分類器。然而,基于機器翻譯的方法會損失跨語言情感分析的精度。一方面,機器翻譯系統生成唯一解,所以翻譯未必正確;另一方面,機器翻譯系統依賴于訓練集,當目標語言的領域與訓練集相差較大時性能不佳。
借助雙語詞典來進行跨語言情感分類器遷移。在有監督學習中,可以先在源語言上學習情感分類器,然后借助雙語詞典將特征空間翻譯成目標語言;在無監督學習中,可以將源語言的情感詞典通過雙語詞典翻譯成目標語言。然而,大部分基于雙語詞典的工作在選取翻譯詞的時候沒有考慮情感詞的上下文依賴關系。此外,情感詞的極性(支持或反對)具有領域依賴性,面對不同實體會表現出不同極性,所以將通用的情感詞典用于特定領域往往性能不佳。
綜上所述,多語言的情感傾向性分析主要存在以下兩個問題:
(1)多語言情感分析過于依賴外部資源
大部分多語言情感分析技術是依賴于機器翻譯或者雙語詞典的。如果沒有機器翻譯系統或編纂好的雙語詞典,多語言情感分析的工作將很難進行。
(2)多語言情感分析性能差強人意
首先,基于機器翻譯的方法會損失跨語言情感分析的精度。其次,大部分基于雙語詞典的工作在選取翻譯詞的時候沒有考慮情感詞的上下文依賴關系。最后,不同語言的情感表達差異很大,從原始空間導出的模型被轉換到目標語言空間時存在信息損失。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310397617.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:凈水儀
- 下一篇:微波法一步合成硫化銅銦量子點的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





