[發明專利]影評情感分析中使用特征詞集將影評以特征向量表示的方法有效
| 申請號: | 201810480149.2 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN108763203B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 趙丹丹;高寵 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06K9/62 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 影評 情感 分析 使用 特征 詞集將 特征向量 表示 方法 | ||
1.一種影評情感分析中使用特征詞集將影評以特征向量表示的方法,其特征在于,語料下載,編寫爬蟲對影評進行下載;選取特征詞,根據已下載的影評,提取有意義的情感詞的集合作為特征詞集,特征詞集中的每個詞為特征詞;判斷特征詞集中的每一個特征詞是否在該影評中出現,如果出現標注1,否則標注0,形成該影評的數組,將每條影評都轉化為特征表示形式,作為特征向量,由下述數學模型確定的分類器對待測影評情感傾向性分類概率計算:
只要計算不同類別下p(Ci|w1,w2...wn)的大小并取最大值即可判斷其歸類情感傾向;
p(Ci)包括消極類概率與積極類概率:
消極類概率:
積極類概率:
Ci表示分類的特征向量文本,i=0,1;
p(wj|Ci)表示按類別計算所述特征詞集中的特征詞在訓練集的該類特征向量文本中出現的概率,其包括特征詞在訓練集中消極特征向量文本中出現的概率與特征詞在訓練集中積極特征向量文本中出現的概率;
特征詞在訓練集中消極特征向量文本中出現的概率:
p(wj|C0)=[p(w0|C0),p(w1|C0),p(w2|C0),…,p(wn|C0)]
特征詞在訓練集中積極特征向量文本中出現的概率:
p(wj|C1)=[p(w0|C1),p(w1|C1),p(w2|C1),…,p(wn|C1)]
Ci表示分類的特征向量文本,i=0,1,wj表示特征詞集中的特征詞,j=1,2…n,n是特征詞集中的特征詞的數量;
p(Ci|wj)表示所述特征詞集中的特征詞能夠分別出現在訓練集的每類向量文本中的概率,其包括特征詞能夠出現在訓練集的消極類中的概率與特征詞能夠出現在訓練集的積極類中的概率:
特征詞能夠出現在訓練集的消極類中的概率:
p(C0|wj)=[p(C0|w0),p(C0|w1),p(C0|w2),…,p(C0lwn)]
特征詞能夠出現在訓練集的積極類中的概率:
p(C1|wj)=[p(C1|w0),p(C1|w1),p(C1|w2),…,p(C1|wn)]
Ci表示分類的特征向量文本,i=0,1,wj表示特征詞集中的特征詞,j=1,2…n,n是特征詞集中的特征詞的數量;i=0表示待測影評情感傾向消極分類,i=1表示待測影評情感傾向積極分類,data為待測情感傾向性的影評數據,其為由所述特征詞集表示的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810480149.2/1.html,轉載請聲明來源鉆瓜專利網。





