[發明專利]基于通用知識網絡的詞語語義傾向性預測方法有效
| 申請號: | 201210316850.3 | 申請日: | 2012-08-30 |
| 公開(公告)號: | CN102880600A | 公開(公告)日: | 2013-01-16 |
| 發明(設計)人: | 劉瑞;安翼;陳君龍;宋浪 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京汲智翼成知識產權代理事務所(普通合伙) 11381 | 代理人: | 陳曦;景志 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 通用 知識 網絡 詞語 語義 傾向性 預測 方法 | ||
技術領域
本發明涉及一種詞語語義傾向性預測方法,尤其涉及一種基于通用知識網絡的詞語語義傾向性預測方法,屬于計算機信息數據處理技術領域。
背景技術
互聯網的迅速發展和廣泛普及,在很大程度上改變了人們的生活方式。人們不僅能夠被動地接受信息,還能與外界進行交互。互聯網逐漸成為一種交互式媒體,人們可以通過BBS、Blogs等網絡媒介發表對各種事物的評論。2010年7月由中國互聯網信息中心發布的《中國互聯網絡發展狀況統計報告》的數據表明:博客應用、論壇/BBS的使用率均處于網絡應用的前列。這些觀點信息的迅速增長,為科研人員提供了廣泛的應用和研究對象,并引起了產業界和研究者的廣泛關注。
網絡上這些主觀性的評論包含著大量具有情感傾向的信息,這些信息,不論對于普通的網絡用戶,還是對于生產商以及其他機構組織都有很重要的價值。詞語是所有句子、文本組成的最基本元素,詞語的情感傾向或者極性能很好暗示句子乃至整個文本層次的語義傾向。詞語的情感傾向或者極性判別在對在對主觀性的評論的語義傾向性分析的研究中,起著核心的作用,是語義性傾向性分析的基礎。
心理學研究發現了詞和人類情感之間的可測性。詞語或短語對于情感分類來說,是最重要也是最基本的特征。在人類語言中有一類詞,人們直接使用它們來表達自己的感情,或喜或厭,或贊成或反對,或表揚或貶低等,尤其是當人們對某一事物的好壞做出評價的時候,往往通過使用這類詞語來表達自己鮮明的觀點。這種帶有觀點或者情感傾向的詞語稱之為情感詞(Senitment?Word)。通常,情感詞的極性可以分為三類:正面的(Positive)、負面的(Negative)和中立的(Neutral)。但由于中性詞的情感特征不明顯,對區分文本極性的作用不大,大多數研究中都只注重分析褒義、貶義兩類極性明顯的情感詞。
一些研究者提出應該將情感詞極性值設置為-1到1之間連續的實數值,希望以一種更加詳盡的方式展示出每個情感詞極性的差別。但由于在實際生活中,人們對每個情感詞的褒貶程度并未達成一致性認識,無法給出權威的、量化的極性值,因此,大多數的研究人員仍將情感詞的極性值作為離散值處理。這種處理方式也可以使得詞語極性的計算和處理更加簡單,帶來計算效率上的提高,而一定程度上也可以使情感詞的極性特征更加明顯。
對于網絡上這些主觀性的評論詞語的極性判斷,主要有兩種思路。一種是基于一般性統計的方法,通過分析大規模語料庫中的詞語分布規律,得出詞語的相似度。以Turney為代表,他使用完全基于詞語共現關系統計的方法來計算詞語的相似度。這種方法的出發點是基于這樣的一種假設——相同極性的情感詞傾向于一起出現,而且許多實驗也證明了這個假設的有效性。但是,這種的方法需要有大量的文本作訓練集,而且計算的復雜度較高。另一種方法是基于詞典的方法,比如英文詞典WordNet和中文詞典知網(HowNet)。這類方法通常是通過研究詞典的語義結構,找出詞語之間的語義聯系,并計算語義“距離”。這種語義“距離”通常被當作詞語間的相似度,并以此作為預測詞語傾向性的一種手段。
這兩類方法對文本進行傾向性分析時,都依賴于極性詞典,因此極性詞典的好壞直接影響情感傾向性判斷的正確性,而目前極性詞典的構建都是通過手工進行的,工作量大而且極性詞典不完備。由于極性詞典收錄范圍有限并難以及時更新,現有的極性詞典中僅適合對規范的常用詞進行情感傾向性分析,對于新出現的詞語、某些特定詞語或者新的語義則無法使用,不適應信息的高速發展變化和詞語分析的廣泛需求。
在申請號為201010229011.9的中國發明專利申請中,公開了一種主觀性文本情感傾向性分析方法,包括如下步驟:預先建立一個可擴展的、傾向度定量的極性詞典;對待分析文本進行預處理;利用語義角色標注工具,對預處理的文本語義角色進行標注;采用指代消解方法,對代詞等對象實體進行還原;建立領域特征庫;利用極性詞典和特征庫分別完成情感詞識別和特征詞識別,計算每個特征的情感傾向性值,然后統計計算每句中相關特征的情感傾向性值,最后得出每一特征的整體情感傾向值。
發明內容
針對現有技術所存在的不足,本發明所要解決的技術問題在于提供一種基于通用知識網絡的詞語語義傾向性預測方法。該方法能有效提高語義傾向性分析的準確率。
為實現上述的發明目的,本發明采用下述的技術方案:
一種基于通用知識網絡的詞語語義傾向性預測方法,其特征在于包括如下步驟:
(1)判斷未知詞語是否存在于情感詞詞典中,如果存在則返回未知詞語的極性,如果不存在,則進入步驟(2);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210316850.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:垂直搜索引擎的實現方法
- 下一篇:多核處理器狀態跟蹤裝置





