[發明專利]一種基于微博分析電視節目收視情況的方法有效
| 申請號: | 201310328471.0 | 申請日: | 2013-07-31 |
| 公開(公告)號: | CN103425755A | 公開(公告)日: | 2013-12-04 |
| 發明(設計)人: | 王永恒;杜凱;王樂;袁志堅;付偉;陳穎文 | 申請(專利權)人: | 王永恒 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 深圳市興科達知識產權代理有限公司 44260 | 代理人: | 王翀 |
| 地址: | 410008 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分析 電視節目 收視 情況 方法 | ||
1.一種基于微博分析電視節目收視情況的方法,其特征在于,包括以下步驟:
(1)構建詞庫:從搜狗細胞詞庫下載詞庫,將下載的詞庫組合在一起構成電視領域基本詞庫,并定期更新;
(2)建立微博-電視節目映射:首先建立節目樣本庫,根據樣本特征詞提取每日微博,對獲取的微博進行過濾,采用數據分析開源工具中的文本處理包進行文本分類,由于文本處理包不支持中文,先把中文分詞加入空格,“模擬”英文來實現分類;
(3)數據分析:對步驟(2)建立的微博-電視節目映射分別進行每日分析和多維分析,所述每日分析包括情感分析、詞語特征分析和主題分析、每日基本統計以及網絡特征分析;
(4)可視化結果展現:通過報表形式和圖形形式將步驟(3)分析的結果展現出來。
2.根據權利要求1所述的基于微博分析電視節目收視情況的方法,其特征在于,步驟(2)中,所述建立節目樣本庫的方法,首先根據節目關鍵詞,使用微博的搜索接口進行搜索,獲取初始節目樣本庫;然后采用人工的方式,對初始節目樣本庫進行過濾,將過濾出的微博標注為“相關”和“不相關”兩類,并將“相關”和“不相關”兩類微博建立節目樣本庫微博,每個節目的樣本庫中要求“相關”的微博不少于2萬條,“不相關”的微博不少于5000條;
所述提取每日微博的方法,首先使用開源工具數據分析開源工具中的中文分詞工具包對電視節目樣本庫中的每條微博進行中文分詞處理;然后使用數據分析開源工具中的挖掘頻繁項集工具包從分詞后的微博獲取頻繁詞集,忽略長度為1的項集,并去掉支持度小于α的詞集,α是一個能調的參數,能控制最終頻繁詞集的大小,通過調整α使最終頻繁詞集不超過200個項;然后使用節目關鍵詞及獲取的頻繁詞集,利用微博的搜索接口獲取每日微博內容,同時獲取微博的作者的地域、性別、年齡和發布時間;
所述微博過濾的方法,首先對樣本和待分類的微博分別進行分詞處理,然后合并到同一個文本文件;然后使用文本分析工具創建文本詞頻特征矩陣;然后使用文本處理包訓練模型。
3.根據權利要求1所述的基于微博分析電視節目收視情況的方法,其特征在于,步驟(3)中,所述情感分析的方法是采取情感詞匯分析和機器學習相結合的方法,首先建立情感傾向性詞庫,以開源項目用于分析文本間相似度的開源工具中的中文傾向性詞庫為基本詞庫,以人工方式建立不少于2萬條的情感微博樣本庫,所述情感微博樣本庫包含“喜歡”和“不喜歡”兩類標簽,“喜歡”和“不喜歡”的微博條數各占一半,采用數據分析開源工具中的中文分詞工具包對情感微博樣本庫進行頻繁詞集挖掘,根據頻繁詞集,采用人工核對的方式來挑選基本情感詞庫,同時把微博中的表情符號加入到情感詞庫中,最終形成完整的情感傾向性詞庫;然后基于情感詞分析建立情感分類的樣本庫,抽取至少5萬條的微博,基于情感詞對微博進行情感打分;然后進行基于機器學習的情感分類器訓練,對建立好的情感分類樣本庫進行分詞并使用中文分詞工具包建立詞頻矩陣,然后進行貝葉斯分類器、支持向量機分類器和最大熵分類器的訓練,對從待分析的數據中隨機抽取的2萬條數據的準確度和召回率進行測試,選擇相適應的分類器;最后基于機器學習進行并行情感分類,按照節目把微博數據劃分到多個計算結點,使用選擇好的分類器并行進行微博情感分類,最后把分類的結果匯總并寫入數據倉庫;
所述詞語特征分析和主題分析的方法是基于并行頻繁詞集挖掘算法的基本原理,根據頻繁項集把微博劃分為互不相交的子集,首先進行數據劃分,獲取頻繁一項集,根據一項集把微博劃分為多個不相交子集,把不相交子集均勻地劃分到所有的計算結點上;然后構建項集鏈表,在項集鏈表中,第一項相同的微博作為一個鏈表連接起來,鏈表的頭保存在一個頭表里;然后并行挖掘頻繁詞集,每個計算結點處理自己的項集鏈表,逐一挖掘頭表中每項所對應的子集,要挖掘第一個子集,包含a的子集,稱為a子集,能從鏈表中單獨提取出a的隊列,對a的隊列中的微博采用劃分的方法遞歸挖掘,把結果加上前綴a就得到a子集,微博的頻繁詞集能直接進行展示,用戶能看到每個節目對應的熱門詞匯,同時頻繁詞集也是下一步進行話題聚類的基礎;
所述微博主題分析是在同一個節目的微博中,根據討論內容劃分為不同的主題,采用基于頻繁詞集的聚類方法進行主題分析;首先進行文本特征提取,采取詞語特征分析和主題分析獲取的頻繁詞集作為文本特征,每個微博表示為一個向量{t1:s1,t2:s2,..,tn:sn},其中ti為頻繁詞,si為對應的支持度;其次進行初始類劃分,對頻繁詞集進行篩選,去掉無意義的頻繁詞集,把包含每個頻繁詞集的微博劃分到一類中,并用相應的頻繁詞集作為該類的表示;然后進行基于圖書館準則的類調整;
所述每日基本統計是對每天的微博統計數據進行匯總,討論某個節目的總人數、每個地區討論某個節目的人數、男性討論某個節目的人數,原始數據存儲在數據庫中,通過聚集查詢實現統計,原始數據存在文件中,通過與數據統計類型相適配的并行計算方法實現統計,最終把統計結果保存到本地數據倉庫內;
所述網絡特征分析的方法,首先進行粉絲覆蓋分析,用于了解明星的粉絲和節目收視情況之間的關系;然后進行觀眾過渡分析,當電視節目更換時,通過觀眾過渡分析可以了解節目更換后收視人群的變化;
所述多維分析的方法是通過分析型的SQL語句實現的,從不同角度了解電視節目的收視情況,能根據用戶的定制,每周、每月、半年、一年自動進行,也能由用戶隨時選擇不同的維度進行實時分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王永恒,未經王永恒許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310328471.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種三工雙向光收發模組
- 下一篇:一種用于板上芯片LED封裝結構





