[發明專利]影評情感分析中使用特征詞集將影評以特征向量表示的方法有效
| 申請號: | 201810480149.2 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN108763203B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 趙丹丹;高寵 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06K9/62 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 影評 情感 分析 使用 特征 詞集將 特征向量 表示 方法 | ||
影評情感分析中使用特征詞集將影評以特征向量表示的方法,屬于自然語言處理領域,為了解決影評情感分析可以被用于機器學習領域的問題,選取特征詞,根據已下載的影評,提取有意義的情感詞的集合作為特征詞集,特征詞集中的每個詞為特征詞;判斷特征詞集中的每一個特征詞是否在該影評中出現,如果出現標注1,否則標注0,形成該影評的數組,將每條影評都轉化為特征表示形式,作為特征向量,效果是可以使用在改進的樸素貝葉斯模型中,導致情感分析方法更為智能化,也提高了準確性。
技術領域
本發明屬于自然語言處理領域,涉及一種影評情感分析中使用特征詞集將影評以特征向量表示的方法。
背景技術
在各種論壇、購物網站、評論網站、微博等,越來越多的用戶在上面發表著自己的意見、看法、態度、情感,如果能分析出用戶的情感變化過程,那么這些評論就會為我們提供大量的信息。比如某個電影的評論,某個商品的評價等。根據對帶有情感色彩的主觀性文本進行分析,識別出用戶的態度,是喜歡,討厭,還是中立。在實際生活中有很多應用,例如通過對微博用戶的情感分析,來預測股票走勢、預測電影票房、選舉結果等,還可以用來了解用戶對公司、產品的喜好,分析結果可以被用來改善產品和服務,還可以發現競爭對手的優劣勢等等。
在現有的技術中,對文本的情感分析主要是基于情感詞典的中文情感分析,情感詞典中的詞語可以是單個字,也可以是詞語。根據詞典中的情感詞情感極性的不同,將情感詞典分為褒義詞典及貶義詞典,根據詞典中情感詞的極性及情感強度,計算整個句子的情感得分,最后得出句子的情感傾向,然而,該種方法對于一個具有等量的極性不同情感詞的影評的情感整體傾向性判斷準確性不高。
發明內容
為了解決影評情感分析可以被用于機器學習領域的問題,本發明提出如下技術方案:一種影評情感分析中使用特征詞集將影評以特征向量表示的方法,語料下載,編寫爬蟲對影評進行下載;選取特征詞,根據已下載的影評,提取有意義的情感詞的集合作為特征詞集,特征詞集中的每個詞為特征詞;判斷特征詞集中的每一個特征詞是否在該影評中出現,如果出現標注1,否則標注0,形成該影評的數組,將每條影評都轉化為特征表示形式,作為特征向量。
有益效果:本發明判斷特征詞集中的每一個特征詞是否在該影評中出現,如果出現標注1,否則標注0,形成該影評的數組,將每條影評都轉化為特征表示形式,作為特征向量,以特征表示文本作為影評的表示,從而使得影評情感分析可以被用于機器學習領域,特別是可以使用在改進的樸素貝葉斯模型中,導致情感分析方法更為智能化,也提高了準確性。
附圖說明
圖1為實施例1中基于機器學習的影評情感傾向性分析方法的流程圖;
圖2為jieba分詞提取主干處理結果圖;
圖3為分類結果與伯努利樸素貝葉斯分類結果比較圖;
其中:實線為本發明的分類結果、虛線為伯努利樸素貝葉斯分類的結果;y軸為準確率、x軸為不同測試樣本;
圖4為分類器構建示意圖。
具體實施方式
實施例1:
本實施例針對中文影評的情感傾向性分析,其提出了一種情感傾向的判別方法,主要包括訓練方法、測試方法、分析方法,該方案使用機器學習的手段提取特征詞、將文本轉化為特征表示形式、通過樸素貝葉斯思想構建分類器,其轉特征提取采用詞性選取,避免因為影評少而沒有提取出有意義的特征。
本實施例公開的技術方案如下:
一種基于機器學習的影評情感傾向性分析方法,包括以下步驟:
步驟1:編寫爬蟲對豆瓣電影影評進行下載,下載的影評形成語料庫;
步驟(a):獲取豆瓣中待下載電影的網址。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810480149.2/2.html,轉載請聲明來源鉆瓜專利網。





