[發明專利]一種基于語言模型的情感分類方法無效
| 申請號: | 200710071370.4 | 申請日: | 2007-09-21 |
| 公開(公告)號: | CN101127042A | 公開(公告)日: | 2008-02-20 |
| 發明(設計)人: | 卜佳俊;陳純;仇光;劉康苗 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 | 代理人: | 林懷禹 |
| 地址: | 310027浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語言 模型 情感 分類 方法 | ||
技術領域
本發明涉及數據挖掘、機器學習、中文信息處理,特別是涉及一種基于語言模型的情感分類方法。
背景技術
隨著互聯網應用的繁榮,特別是Web2.0革命的到來,越來越多的用戶參與到了網絡活動中,如撰寫博客,在論壇上發表評論,等等。這些由個體用戶產生的數據與傳統權威媒體產生的數據相比,具有其鮮明的特點,如帶個人情感,更有真實性,語言比較口語化等等。
用戶產生數據的積累也給一些傳統問題的解決和新應用的產生提供了可能性。如在傳統的企業產品質量跟蹤中,需要通過用戶問卷調查等費時費力的手段進行,而且所獲得的反饋數據的時效性和數量都不能得到保證;而借助互聯網論壇上大量用戶針對產品所發表的評論,我們通過分析其中的正面和負面評價,可以方便快速地獲得終端消費者對于產品的意見,從而可以在減少人工勞動、保證反饋數量的同時,也有效地解決了時效性的問題。
在針對用戶產生數據的處理和應用中,其中最關鍵的一個問題是情感分類問題。情感分類的任務是指判別一段文本的情感極性,確定所表達的觀點是正面,負面還是中性的。傳統的情感分類方法主要分為兩類:基于詞典和基于機器學習?;谠~典的方法中,需要事先定義一個標注了詞的情感極性的詞典,句子或者文章的情感極性通過在其中出現的正面或者負面情感詞匯的多少,以一定的計算方法進行衡量;基于機器學習的方法則把情感分類的問題歸類為文本分類的問題,采用了在文本分類中常用的如樸素貝葉斯模型,支持向量機等分類方法,通過對標注好情感極性的文本的訓練學習,得到分類器,對新的文本進行情感分類。但是基于詞典的方法易受詞典大小的影響,不夠靈活;借助文本分類思想的機器學習方法將文本視為由一系列相互間獨立的詞組成的集合,純粹基于概率的思想,沒有從語言的內在結構出發。
語言模型是自然語言的數學模型,描述了自然語言的統計和結構方面的內在規律,最早被用于語音識別和自然語言處理領域。從1998年開始,開始被應用到信息檢索領域,具體方法為:為每一篇文本,包括查詢條件,估計一個語言模型,然后根據文本的語言模型和查詢條件的語言模型之間的相似度,對文本進行排序。語言模型由于其成熟的概率理論和簡單的使用方式,在很多的實驗中都有著優異的表現。
發明內容
正是由于語言模型在理論上的成熟和實際應用中的簡單有效,以及其對自然語言本質的描述能力,本發明的目的在于提供一種基于語言模型的情感分類方法,將該模型應用到情感分類中,以彌補原有方法的不足。
本發明解決其技術問題采用的技術方案是:
1)情感語料庫收集:通過收集互聯網上的博客文章作為原始語料庫,再對文本情感極性進行人工標注,判斷是正面,負面還是中性評價;
2)詞空間定義:對所收集的語料庫文本進行分詞處理,將其中的詞取出,組成詞空間V;
3)情感語言模型建立:基于以上對標注的情感語料庫中的文本進行分詞處理后,計算詞空間V中的每個詞在正面和負面語料庫中出現的概率,分別得出正面情感語言模型LMP和負面情感語言模型LMN;
4)文本語言模型建立:對待分類的文本進行分詞處理,計算詞空間V中的每個詞在文本中出現的概率,得到該文本的語言模型LMT;
5)文本情感判斷:計算文本語言模型LMT與正面情感語言模型LMP、負面情感語言模型LMN之間的距離,分別記為DistP和DistN;當DistP>DistN時,判別文本的情感為負面,當DistP<DistN時,則判別文本的情感為正面,當DistP=DistN時,則判別文本的情感為中性。
所述的步驟1)中的博客文章是利用百度提供的博客搜索服務得到的。
為了得到搜索結果,提供給百度博客搜索服務的查詢條件為電影名稱、數碼產品的名稱。
每個查詢所取的結果數目可根據應用環境的要求進行設置。
所述的步驟2)中的詞為去掉停用詞之后的集合。
所述的步驟3),4)中的詞w在語料庫C中或文本D中出現的概率的計算方法為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710071370.4/2.html,轉載請聲明來源鉆瓜專利網。





