[發(fā)明專利]一種垂直領(lǐng)域熱門微博的提取方法及其裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310581666.6 | 申請(qǐng)日: | 2013-11-19 |
| 公開(公告)號(hào): | CN103580997B | 公開(公告)日: | 2017-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 李威 | 申請(qǐng)(專利權(quán))人: | 湖南蟻坊軟件有限公司 |
| 主分類號(hào): | H04L12/58 | 分類號(hào): | H04L12/58;H04L29/06;G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 410000 湖南省長(zhǎng)沙市高新開發(fā)*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 垂直 領(lǐng)域 熱門 提取 方法 及其 裝置 | ||
1.一種垂直領(lǐng)域熱門微博的提取方法,其特征在于,其包括以下步驟:
步驟1、實(shí)時(shí)采集微博信息:通過(guò)某一門戶微博指定的開放接口實(shí)時(shí)采集該門戶的微博信息,其中,微博信息主要包括微博內(nèi)容和轉(zhuǎn)發(fā)次數(shù);
步驟2、標(biāo)簽化微博信息:定義標(biāo)簽A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},其中a1、a2、…、an為標(biāo)簽A集合中包含的若干元素,b1、b2、…、bn為標(biāo)簽B集合中包含的若干元素,m1、m2、…mn為標(biāo)簽M集合中包含的若干元素;將每一微博信息與每一標(biāo)簽進(jìn)行求交集,如果交集不為空集即微博信息中包含標(biāo)簽的元素,則,為該微博信息標(biāo)上該標(biāo)簽;
步驟3、根據(jù)標(biāo)簽將標(biāo)簽化的微博信息進(jìn)行分流:根據(jù)標(biāo)簽將標(biāo)簽化的微博信息分成多個(gè)垂直領(lǐng)域,每個(gè)垂直領(lǐng)域由含有相同標(biāo)簽的多個(gè)微博信息集合而成;被標(biāo)上多個(gè)標(biāo)簽的微博信息將被分發(fā)到多個(gè)垂直領(lǐng)域;
步驟4、找出每一個(gè)垂直領(lǐng)域內(nèi)的熱門詞組:采用fp-growth算法,周期性地對(duì)每一個(gè)垂直領(lǐng)域內(nèi)的微博信息進(jìn)行分析提取熱門詞組;
步驟5、根據(jù)熱門詞組和轉(zhuǎn)發(fā)次數(shù)找到熱門微博:搜索包括熱門詞組的微博信息,在這些微博信息中選取轉(zhuǎn)發(fā)次數(shù)最高的那一條作為垂直領(lǐng)域的一條熱門微博;
步驟6、過(guò)濾熱門微博中含廣告的微博:采用廣告過(guò)濾模塊去除熱門微博中含廣告的熱門微博。
2.一種垂直領(lǐng)域熱門微博的提取裝置,其特征在于,其包括微博信息采集模塊、微博信息標(biāo)簽化模塊、微博信息分流模塊、熱門詞組提取模塊、熱門微博提取模塊及廣告過(guò)濾模塊,其中,
所述微博信息采集模塊實(shí)時(shí)采集某一門戶的微博信息,其中,微博信息包括微博內(nèi)容和轉(zhuǎn)發(fā)次數(shù);
所述微博信息標(biāo)簽化模塊包括自定義的標(biāo)簽數(shù)據(jù)庫(kù)及交集求解模塊,所述交集求解模塊將微博信息的微博內(nèi)容與標(biāo)簽數(shù)據(jù)庫(kù)的標(biāo)簽進(jìn)行求交,根據(jù)所得的交集包括的標(biāo)簽對(duì)微博信息進(jìn)行標(biāo)簽化;
所述微博信息分流模塊根據(jù)標(biāo)簽將標(biāo)簽化的微博信息分成多個(gè)垂直領(lǐng)域,將含有相同標(biāo)簽的多個(gè)微博信息集合成同一垂直領(lǐng)域;被標(biāo)上多個(gè)標(biāo)簽的微博信息將被分發(fā)到多個(gè)垂直領(lǐng)域;
所述熱門詞組提取模塊采用fp-growth算法提取每一垂直領(lǐng)域內(nèi)的熱門詞組;
所述熱門微博提取模塊根據(jù)熱門詞組和轉(zhuǎn)發(fā)次數(shù)找到相應(yīng)的熱門微博;
所述廣告過(guò)濾模塊用以濾除熱門微博中的含有廣告宣傳詞組的熱門微博。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南蟻坊軟件有限公司,未經(jīng)湖南蟻坊軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310581666.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





