[發明專利]電影期望值的計算方法及系統有效
| 申請號: | 201210126129.8 | 申請日: | 2012-04-26 |
| 公開(公告)號: | CN102708164A | 公開(公告)日: | 2012-10-03 |
| 發明(設計)人: | 李壽山;龐磊;周國棟 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電影 期望值 計算方法 系統 | ||
技術領域
本發明屬于自然語言處理技術領域,尤其涉及一種電影期望值的計算方法及系統。
背景技術
目前,人們越來越習慣于在網絡上表達自己的觀點和情感。在網絡上存在大量的帶有情感傾向性的文本,這些傾向性文本往往以商品評論、論壇評論、或博客的形式存在。為了自動獲取和分析此類主觀信息,文本情感分析(Sentiment?Analysis)的研究得到了迅速發展,受到學術界和商業界的密切關注。
眾所周知,電影信息庫的建立對于人們了解和查找眾多電影信息來說極為重要。而電影信息通常包括電影導演、主要演員、投資情況、電影期望值等,其中,電影期望值是指,某一電影即將上映之前,大眾對這一電影的期待程度。通過此期望值人們可推斷這部即將上映的電影值不值的去看。
然而,現有的電影期望值計算方法主要是通過問卷調查形式進行的,此方法需要設計問卷,然后組織被調查者進行問卷回答,再根據統計的問卷結果進行計算出電影期望值,此方法不免造成額外的人力成本,工作效率低,且由于被調查的人群相對集中,因而不具有代表性,基于此方法建立的電影信息庫中,電影期望值這一指標也往往也實際情況不盡相符。
發明內容
本發明的目的在于提供一種計算結果真實可靠、簡單可行、省時省力的電影期望值的計算方法及系統。
為解決上述技術問題,本發明的技術方案是這樣實現的:
一種電影期望值的計算方法,包括如下步驟:
S1、采集待上映電影一的評論信息;
S2、將所述評論信息按情感分類標注為正面評論或負面評論,以獲得訓練樣本;
S3、利用所述訓練樣本作為訓練語料訓練最大熵分類器;
S4、采集待上映電影二的評論信息;
S5、利用所述最大熵分類器對待上映電影二的評論信息進行分類;
S6、獲取所述最大熵分類器的分類結果,計算待上映電影二的期望值。
優選的,在上述電影期望值的計算方法中,所述待上映電影一的評論信息和待上映電影二的評論信息來自微博。
優選的,在上述電影期望值的計算方法中,所述步驟S2中,還包括將所述評論信息標注為中立評論。
優選的,在上述電影期望值的計算方法中,所述步驟S2中,還包括對所述待上映電影一的評論信息進行分詞。
優選的,在上述電影期望值的計算方法中,所述步驟S1中,還包括對所述評論信息進行文字預處理,該文字預處理包括:去掉所述評論信息所對應的用戶名、去掉所述評論信息中的網絡鏈接以及將所述評論信息中的表情圖片替換成相應的文本。
本發明還公開了一種電影期望值的計算系統,該系統包括:
樣本采集單元,用于采集待上映電影一的評論信息;
樣本標注單元,用于將所述評論信息按情感分類標注為正面評論或負面評論,以獲得訓練樣本;
最大熵分類器訓練單元,利用所述訓練樣本作為訓練語料訓練最大熵分類器;
評論信息采集單元,用于采集待上映電影二的評論信息;
最大熵分類器,用于對待上映電影二的評論信息進行分類;
電影期望值計算單元,獲取所述最大熵分類器的分類結果,計算待上映電影二的期望值。
優選的,在上述電影期望值的計算系統中,所述待上映電影一的評論信息和待上映電影二的評論信息來自微博。
優選的,在上述電影期望值的計算系統中,所述樣本標注單元還用于將所述評論信息標注為中立評論。
優選的,在上述電影期望值的計算系統中,所述電影期望值的計算系統還包括分詞單元,所述分詞單元用以對所述待上映電影一的評論信息進行分詞。
優選的,在上述電影期望值的計算系統中,所述電影期望值的計算系統還包括文字預處理單元,所述文字預處理單元用于對所述待上映電影一的評論信息進行文字預處理,該文字預處理包括:去掉所述評論信息所對應的用戶名、去掉所述評論信息中的網絡鏈接以及將所述評論信息中的表情圖片替換成相應的文本。
與現有技術相比,本發明所使用的微博平臺可以提供極其豐富的文本資源并能夠提供最現實可靠的樣本。使用本發明的方法和系統進行電影期望值的計算,有助于電影發行廠商準確的了解該電影的票房預期以及當前的宣傳情況,對以后的宣傳策略有很大幫助。本發明是利用自然語言處理技術對微博文本進行情感分類,來計算電影的期望值,該方法簡單可行,比傳統的統計方法省時省力。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210126129.8/2.html,轉載請聲明來源鉆瓜專利網。





