[發明專利]一種基于語言模型的情感分類方法無效
| 申請號: | 200710071370.4 | 申請日: | 2007-09-21 |
| 公開(公告)號: | CN101127042A | 公開(公告)日: | 2008-02-20 |
| 發明(設計)人: | 卜佳俊;陳純;仇光;劉康苗 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 | 代理人: | 林懷禹 |
| 地址: | 310027浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語言 模型 情感 分類 方法 | ||
1.一種基于語言模型的情感分類方法,其特征在于:
1)情感語料庫收集:通過收集互聯網上的博客文章作為原始語料庫,再對文本情感極性進行人工標注,判斷是正面,負面還是中性評價;
2)詞空間定義:對所收集的語料庫文本進行分詞處理,將其中的詞取出,組成詞空間V;
3)情感語言模型建立:基于以上對標注的情感語料庫中的文本進行分詞處理后,計算詞空間V中的每個詞在正面和負面語料庫中出現的概率,分別得出正面情感語言模型LMP和負面情感語言模型LMN;
4)文本語言模型建立:對待分類的文本進行分詞處理,計算詞空間V中的每個詞在文本中出現的概率,得到該文本的語言模型LMT;
5)文本情感判斷:計算文本語言模型LMT與正面情感語言模型LMP、負面情感語言模型LMN之間的距離,分別記為DistP和DistN;當DistP>DistN時,判別文本的情感為負面,當DistP<DistN時,則判別文本的情感為正面,當DistP=DistN時,則判別文本的情感為中性。
2.根據權利要求1所述的一種基于語言模型的情感分類方法,其特征在于:所述的步驟1)中的博客文章是利用百度提供的博客搜索服務得到的。
3.根據權利要求2所述的一種基于語言模型的情感分類方法,其特征在于:為了得到搜索結果,提供給百度博客搜索服務的查詢條件為電影名稱、數碼產品的名稱。
4.根據權利要求2所述的一種基于語言模型的情感分類方法,其特征在于,每個查詢所取的結果數目可根據應用環境的要求進行設置。
5.根據權利要求1所述的一種基于語言模型的情感分類方法,其特征在于,所述的步驟2)中的詞為去掉停用詞之后的集合。
6.根據權利要求1所述的一種基于語言模型的情感分類方法,其特征在于,所述的步驟3),4)中的詞w在語料庫C中或文本D中出現的概率的計算方法為:
其中,
X代表語料庫C或文本D;
C(w,X)為詞w在語料庫C或文本D中出現的次數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710071370.4/1.html,轉載請聲明來源鉆瓜專利網。





