[發明專利]一種垂直領域熱門微博的提取方法及其裝置有效
| 申請號: | 201310581666.6 | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103580997B | 公開(公告)日: | 2017-09-29 |
| 發明(設計)人: | 李威 | 申請(專利權)人: | 湖南蟻坊軟件有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L29/06;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410000 湖南省長沙市高新開發*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垂直 領域 熱門 提取 方法 及其 裝置 | ||
技術領域
本發明屬于網絡技術領域,具體涉及一種垂直領域熱門微博的提取方法及其裝置。
背景技術
隨著互聯網技術的進步與發展,微博已成為人們獲取信息、交流信息的重要渠道,大量網民在微博中發表自己的意見和爆料各類新聞,每天都有成千上萬的話題從微博上產生,如何更快速地從微博信息中獲取微博熱點將對了解社會發展形勢、掌握輿論動態具有指導性作用。
目前存在的微博熱點挖掘方法是通過對特定時間段內全局網絡微博話題下的微博數量進行對比,通過數量排序得到全局網絡內的熱點微博,然而,在現實生活中,我們一般對全局微博的很多熱點都不感興趣,而是比較關注某個特定領域或者地區的熱門微博,比如我們工作所在地區,我們家鄉所在地區的熱門微博,或者我們所在行業領域的熱門微博,然而,當前存在的微博熱點挖掘方法是難以滿足該等需求。
發明內容
針對現有技術存在的問題,本發明旨在提供一種垂直領域熱門微博的提取方法,它首先根據自己定義的標簽將微博信息進行標簽化,根據標簽將標簽化的微博信息分成各個垂直領域,然后在垂直領域內對提取熱門微博,只需更新定義標簽可以滿足不同區域和領域網絡內的熱門微博的需求,因而,可以適應使用者差異化的需求。
本發明提供的一種垂直領域熱門微博的提取方法,其包括以下步驟:
步驟1、實時采集微博信息:通過某一門戶微博指定的開放接口實時采集該門戶的微博信息,其中,微博信息主要包括微博內容和轉發次數;
步驟2、標簽化微博信息:定義標簽A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},將每一微博信息與每一標簽進行求交集,如果交集不為空集即微博信息中包含標簽的元素,則,為該微博信息標上該標簽;
步驟3、根據標簽將標簽化的微博信息進行分流:根據標簽將標簽化的微博信息分成多個垂直領域,每個垂直領域由含有相同標簽的多個微博信息集合而成;
步驟4、找出每一個垂直領域內的熱門詞組:周期性地對每一個垂直領域內的微博信息進行分析提取熱門詞組;
步驟5、根據熱門詞組和轉發次數找到熱門微博:搜索包括熱門詞組的微博信息,在這些微博信息中選取轉發次數最高的那一條作為垂直領域的一條熱門微博;
步驟6、過濾熱門微博中含廣告的微博:采用廣告過濾模塊去除熱門微博中含廣告的熱門微博。
本發明又提供的一種垂直領域熱門微博的提取裝置,其包括微博信息采集模塊、微博信息標簽化模塊、微博信息分流模塊、熱門詞組提取模塊、熱門微博提取模塊及廣告過濾模塊,其中,
所述微博信息采集模塊實時采集某一門戶的微博信息,其中,微博信息包括微博內容和轉發次數;
所述微博信息標簽化模塊包括標自定義的標簽數據庫及交集求解模塊,所述交集求解模塊將微博信息的微博內容與標簽數據庫的標簽進行求交,根據所得的交集包括的標簽對微博信息進行標簽化;
所述微博信息分流模塊根據標簽將標簽化的微博信息分成多個垂直領域,將含有相同標簽的多個微博信息集合成同一垂直領域;
所述熱門詞組提取模塊提取每一垂直領域內的熱門詞組;
所述熱門微博提取模塊根據熱門詞組和轉發次數找到相應的熱門微博;
所述廣告過濾模塊用以濾除熱門微博中的含有廣告宣傳詞組的熱門微博。
本發明公開的一種垂直領域熱門微博的提取方法,具有以下有益效果:
本發明提供的一種垂直領域熱門微博的提取方法,首先根據自己定義的標簽將微博信息進行標簽化,根據標簽將標簽化的微博信息分成各個垂直領域,然后在垂直領域內對提取熱門微博,只需更新定義標簽可以滿足不同區域和領域網絡內的熱門微博的需求,因而,可以適應使用者差異化的需求。
附圖說明
圖1為本發明提供的一種垂直領域熱門微博的提取方法的流程圖;
圖2為本發明提供的一種垂直領域熱門微博的提取裝置的結構框圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南蟻坊軟件有限公司,未經湖南蟻坊軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310581666.6/2.html,轉載請聲明來源鉆瓜專利網。





