[發明專利]一種社會化媒體分析系統在審
| 申請號: | 201410634592.2 | 申請日: | 2014-10-27 |
| 公開(公告)號: | CN104408083A | 公開(公告)日: | 2015-03-11 |
| 發明(設計)人: | 李葆青;張躍;胡玲芳;孟麗 | 申請(專利權)人: | 六盤水職業技術學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 553000 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 社會化 媒體 分析 系統 | ||
1.一種社會化媒體分析系統,至少包括數據采集模塊、數據整理模塊、數據分析模塊、關鍵詞檢索模塊和報表生成模塊;所述數據采集模塊包括網址采集和內容采集模塊;所述數據整理模塊包括處理同義詞、處理停用詞、數據內容處理、數據庫處理模塊;所述數據分析模塊包括內容分析模塊和數據顯示模塊;所述關鍵詞檢索模塊主要為顯示內容模塊;所述報表生成模塊包括顯示直方圖和顯示直線圖模塊;其特征在于:
S1,數據采集模塊的功能是從網頁中獲取論壇帖子內容,為后面數據分析提供資源。數據采集分為網址采集和內容采集,先采集網址,根據采集到的網址采集相應的帖子內容。網址采集最多采到第四級就是帖子內容網址,有的論壇采集到第二級就是帖子內容網址,采集步驟如下:
1)輸入初始化種子,采集一級網址,一級網址入庫;
2)如果一級網址是帖子內容網址,直接走向8),否則繼續3);
3)根據一級網址,采集二級網址,二級網址入庫;
4)如果二級網址是帖子內容網址,直接走向8),否則繼續5);
5)根據二級網址,采集三級網址,三級網址入庫;
6)如果三級網址是帖子內容網址,直接走向8),否則繼續7);
7)根據三級網址,采集四級網址,四級網址入庫;
8)采集帖子內容,采集標題、帖子內容、發帖以及回帖用戶名、帖子存在的時間、帖子的關注度、討論區;
S2,數據整理模塊:在數據整理中,主要是對采集到的數據進行提純,采集到的論壇數據無意義的詞比較多,需要進行分詞[1],通過分詞剔除這些垃圾數據為后續的數據分析提供保障。針對論壇數據可采用的預處理步驟如下:
1)分詞,系統采用采用ICTCLAS進行中文分詞,分詞正確率高達97.58%(973專家組評測結果)另外,考慮到互聯網不斷有網絡專用語和固定搭配出現,將積累并整理過的網絡專用語加入了分詞用戶詞典,以此提高分詞的性能;
2)過濾停用詞:停用詞是指那些對文本主題沒有貢獻的詞,例如:的、地、得,通過對停用詞的過濾,不僅可以減少文本特征的維度,而且可以減少計算量。
3)同義詞合并:在分詞中,同義詞比較多,對同義詞的合并能夠減少關鍵詞的數量,提高后期聚類的準確性
S3,數據分析模塊是社會化媒體分析系統的關鍵,主要涉及到帖子文本特征的提取,提取特征的方法有多種,例如TF-IDF,互信息、信息熵,在這篇文章中采用TF-IDF,它涉及到向量空間模型,向量空間模型的思想是用向量的形式來描述文檔,即將文檔表示成形如(w1,w2,w3,…)的形式,其中wi是出現在文檔中的各個詞的權重。TF稱為詞頻,用于計算該詞描述文檔內容的能力,IDF稱為反文檔頻率,用于計算該詞區分文檔的能力。TF*IDF的指導思想建立在這樣一條基本假設之上:在一個文本中出現很多次的單詞,在另一個同類文本中出現次數也會很多,反之亦然。所以如果特征空間坐標系取TF詞頻作為測度,就可以體現同類文本的特點,目前通常使用的是TF-IDF公式來計算權重。TF-IDF公式有多種形式,最常用的公式形式如下:
其中,W(t,d)為詞t在文本d中的權重,而tf(t,d)為詞t在文本d中的詞頻,N為文本的總數,nt為文本集中出現詞t的文本數,分母為歸一化因子。
提取特征后,需要對這些帖子進行識別分類,系統中使用k-mean聚類方法來進行分類,k-means算法的核心思想是把一個數據對象劃分為k個聚類,使每個聚類中的數據點到該聚類中心的平方和最小,算法處理過程:
輸入:聚類個數k,包含n個數據對象的數據集。
輸出:k個聚類。
1)從n個數據對象中任意選取k個對象作為初始的聚類中心。
2)分別計算每個對象到各個聚類中心的距離,把對象分配到距離最近的聚類中。
3)所有對象分配完成后,重新計算k個聚類的中心。
4)與前一次計算得到的k個聚類中心比較,如果聚類中心發生變化,轉(2),否則轉(5)。
5)輸出聚類結果;
分完類,需要進行一系列話題熱度評分,評出哪一類帖子最受大家的瀏覽和回帖,最能代表此類話題的中心意思。評分的參數主要包含帖子數、精華帖數、回復數、瀏覽數,然后評選出最靠前的帖子類,并以帖子類中最熱門的前5個關鍵詞作為此類貼的關鍵詞,同時找出此類貼中最熱門的一個帖子作為關鍵貼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于六盤水職業技術學院,未經六盤水職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410634592.2/1.html,轉載請聲明來源鉆瓜專利網。





