[發明專利]微博熱點追蹤系統及追蹤方法有效
| 申請號: | 201310708188.0 | 申請日: | 2013-12-20 |
| 公開(公告)號: | CN103729420B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 盤承軍;韋艷玲;李煒;唐毓朝 | 申請(專利權)人: | 廣西貝騰科技服務有限公司;廣西科技大學;柳州職業技術學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中恒高博知識產權代理有限公司11249 | 代理人: | 宋敏 |
| 地址: | 545000 廣西壯族自治*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 熱點 追蹤 系統 方法 | ||
技術領域
本發明涉及信息處理領域,具體地,涉及一種微博熱點追蹤系統及追蹤方法。
背景技術
目前,微博已經成為人們進行信息發布、傳播和交流的一個重要的信息平臺,而且微博相對于其它信息媒介更容易進行轉發和傳播,因此在微博上面也更容易引發各種輿情事件。傳統的針對互聯網靜態頁面的輿情監測技術對微博熱點事件的跟蹤和監測并不太實用,一方面是微博數據格式不太適用于傳統的靜態頁面輿情監測應用系統,另一方面微博輿情的形成很大程度與微博頁面的傳播和擴散有關,因此對微博頁面的轉發次數是評價熱點事件的一個重要指標,而對于互聯網靜態頁面的分析并不考慮頁面與頁面之間的關聯特性。因此現有技術不能全面、準確的對微博中的熱點事件進行追蹤。
發明內容
本發明的目的在于,針對上述問題,提出一種微博熱點追蹤系統及追蹤方法,以實現全面、準確的對微博中的熱點事件進行追蹤的優點。
為實現上述目的,本發明采用的技術方案是:
一種微博熱點追蹤系統,包括采集模塊、數據去重模塊、格式轉換模塊、分詞提取模塊、分詞入庫模塊、熱點事件敏感度匹配模塊、關聯模型分析模塊和熱點事件識別及追蹤模塊;
所述采集模塊,通過部署于網絡上的分布式微博數據采集終端,對互聯網上的微博頁面和數據進行采集;
所述數據去重模塊,對上述采集模塊采集到的微博數據內容和地址進行分析,去重掉重復采集的數據;
所述格式轉換模塊,將上述數據去重模塊去重的微博數據轉換為統一的數據表示格式;
所述分詞提取模塊,對上述格式轉換模塊轉換后的數據進行分詞提取,提取出頁面中的關鍵敏感詞匯,并將所提取到的頁面關鍵詞匯存儲到數據庫;
所述熱點事件敏感度匹配模塊,對上述存儲到數據庫中的詞匯進行敏感度分析,如果入庫的微博主題詞匯不符合敏感度匹配的結果,則將該微博數據進行丟棄,否則將訪數據暫時保存在臨時數據庫中;
所述關聯模型分析模塊,對上述保存在臨時數據庫中的微博頁面數據以及采集模塊采集到的微博頁面數據進行關聯性分析,計算得到針對預先設定的熱點詞匯與當前的熱點關聯分析結果,如果熱點事件的關聯分析結果達到預先設定的預值,則進行熱點事件報警;
所述熱點事件識別及追蹤模塊,根據上述關聯模型分析模塊分析得到的頁面關聯特性,輸出對當前熱點事件的所有關聯頁面,確定頁面的分布范圍和熱點事件的傳播過程,實現對微博熱點事件的追蹤。
根據本發明的優選實施例,所述數據去重模塊對微博數據URL地址進行分析。
根據本發明的優選實施例,上述關聯模型分析模塊中的關聯性分析模型如下:
對于關鍵詞,對應的權重分別為,
對于單個站點中頁面價值:
,
,
兩個頁面之間的關聯關系為:。
根據本發明的優選實施例,所述熱點事件敏感度匹配模塊匹配標準如下。
若,則認為匹配;
若,則認為不匹配,為事先設定的閾值。
根據本發明的優選實施例,所述的值取0.4。
同時,本發明的技術方案還公開一種微博熱點追蹤系統的追蹤方法,包括以下步驟:
步驟1、在網絡上部署微博數據采集終端,且該微博數據采集終端能夠自動的傳播和擴散,在網絡上收集微博原始信息;
步驟2、通過對采集到的微博數據URL地址進行分析,實現微博數據的去重;
步驟3、將采集到的微博數據轉換成統一的數據表示格式;
步驟4、啟動分詞提取模塊對統一的數據格式的數據進行分詞提取,獲得微博頁面上的主題內容詞匯;
步驟5、將所提取到的主題詞匯存入數據庫;
步驟6、啟動熱點事件敏感度匹配模塊,對入庫的詞匯進行敏感度分析,如果入庫的微博主題詞匯不符合敏感度匹配的結果,則將該微博數據進行丟棄,否則將訪數據暫時保存在臨時數據庫;
步驟7、啟動微博頁面關聯性模型,對當前的微博頁面數據以及之前所采集到的微博頁面數據進行關聯性分析,計算到針對預先設定的熱點詞匯與當前的熱點關聯分析結果;
步驟8、如果熱點事件的關聯分析結果達到預先設定的預值,則進行熱點事件報警;
步驟9、根據之前關聯模型所分析到頁面關聯特性,輸出對當前熱點事件的所有關聯頁面,確定頁面的分布范圍和熱點事件的傳播過程,實現對微博熱點事件的追蹤。
本發明的技術方案具有以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西貝騰科技服務有限公司;廣西科技大學;柳州職業技術學院,未經廣西貝騰科技服務有限公司;廣西科技大學;柳州職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310708188.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:操作響應方法、客戶端、瀏覽器及系統
- 下一篇:彈性桿式西瓜成熟判斷裝置





