[發(fā)明專利]一種博客信息傳播中識別關(guān)鍵博客集的方法有效
| 申請?zhí)枺?/td> | 201110239145.3 | 申請日: | 2011-08-19 |
| 公開(公告)號: | CN102262681A | 公開(公告)日: | 2011-11-30 |
| 發(fā)明(設(shè)計)人: | 顧慶;張堯;湯九斌;陳道蓄 | 申請(專利權(quán))人: | 南京大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 賀翔 |
| 地址: | 210093*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 博客 信息 傳播 識別 關(guān)鍵 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及博客信息傳播中關(guān)鍵博客節(jié)點集合的快速識別問題,特別針對互聯(lián)網(wǎng)時代博客網(wǎng)站(尤其是微博)越來越普及,已經(jīng)成為新聞和評論等信息傳播的主流平臺之一,需要有效監(jiān)督以幫助互聯(lián)網(wǎng)上信息的鑒別和控制。
背景技術(shù)
博客(Weblog或blog)是以互聯(lián)網(wǎng)為載體、同時由個人管理的信息共享平臺。一個博客是一組包含文字、鏈接、圖像等的網(wǎng)頁集合,由博主(即注冊在博客網(wǎng)站的用戶)個人管理,不定期粘貼新文章(Posts)供人們?yōu)g覽或轉(zhuǎn)載。隨著大量博客網(wǎng)站(如國外著名的Twitter,國內(nèi)的新浪微博等)的涌現(xiàn),博客已成為人們?nèi)粘+@取信息的主流平臺之一。微博(Micro-Blog)的出現(xiàn)更降低了博客對用戶技術(shù)和知識背景的要求,使得越來越多的人們主動加入到博客信息平臺,共享新聞和自己的見解。互聯(lián)網(wǎng)上各種信息真假莫辯,這要求對博客信息傳播做適當(dāng)?shù)谋O(jiān)督和引導(dǎo);由于博客數(shù)量龐大且更新迅速,不可能對每一個博客隨時進行跟蹤,這就增加了監(jiān)督的難度。
解決信息傳播領(lǐng)域影響最大化問題,需要給定信息傳播的網(wǎng)絡(luò)圖,設(shè)定信息傳播模型,以尋找影響力最大的關(guān)鍵節(jié)點集合:集合中的節(jié)點數(shù)量給定,且節(jié)點上的信息可以傳播到圖中最多的節(jié)點上。目前解決影響最大化問題的主流技術(shù)有兩類:其一是啟發(fā)式方法;其二是隨機模擬方法。啟發(fā)式方法根據(jù)節(jié)點的拓?fù)涮卣鳎ǘ葦?shù)和到其他節(jié)點的平均最短距離等,選擇度數(shù)大或者平均最短距離小的節(jié)點作為影響力大的節(jié)點。啟發(fā)式方法的優(yōu)點是執(zhí)行性能較高;缺點是所識別的節(jié)點準(zhǔn)確率低,即實際不能達(dá)到最大的影響力,而且所適用的傳播模型過于簡單,與實際網(wǎng)絡(luò)中的信息傳播方式不相符合。隨機模擬方法基于設(shè)定的信息傳播模型,運用蒙特卡洛隨機模擬,在模擬足夠多次(如10000次以上)的基礎(chǔ)上確定節(jié)點或節(jié)點集合所能夠影響的范圍,再基于貪婪方法選擇邊際增益最高(即額外影響的節(jié)點數(shù)量最多)的節(jié)點作為關(guān)鍵節(jié)點。模擬方法的優(yōu)點是可以適用于不同的信息傳播模型,且識別的關(guān)鍵節(jié)點集準(zhǔn)確率較高;缺點是執(zhí)行性能過低,適用于相對靜態(tài)的信息傳播網(wǎng)絡(luò)。博客信息傳播網(wǎng)絡(luò)信息量大,更新迅速,信息傳播形式多樣,現(xiàn)有方法尚不能滿足博客信息傳播的關(guān)鍵節(jié)點集識別要求。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種可以快速識別博客信息傳播中關(guān)鍵博客節(jié)點集合的方法,該方法能夠以較高的執(zhí)行性能更準(zhǔn)確的識別關(guān)鍵節(jié)點集,適于博客信息平臺數(shù)據(jù)量大更新快的特點,計算簡單,具有擴展性和適應(yīng)性,可以有效輔助博客信息平臺的監(jiān)督。
為實現(xiàn)上述目的,本發(fā)明采用如下的步驟:
1)以博客為單位收集和確定博主間的關(guān)聯(lián);
2)以博客為節(jié)點構(gòu)建博客網(wǎng)絡(luò)圖,圖的邊為博客間的關(guān)聯(lián),對應(yīng)博客間的鏈接關(guān)系或者博主之間的關(guān)注關(guān)系;
3)根據(jù)信息傳播模型確定博客網(wǎng)絡(luò)圖中博客間的關(guān)聯(lián)的權(quán)重;
4)基于博客網(wǎng)絡(luò)圖和關(guān)聯(lián)權(quán)重的設(shè)置計算每個博客對其他博客信息傳播影響力的期望值;
5)根據(jù)博客間信息傳播影響力的期望值,識別博客網(wǎng)絡(luò)圖中信息傳播影響力最大的關(guān)鍵節(jié)點集合,即關(guān)鍵博客集。
上述步驟1)中的關(guān)聯(lián)包括關(guān)注關(guān)系以及博客中文章間的鏈接關(guān)系;而收集和確定博客間的關(guān)聯(lián)的過程為:首先從博客網(wǎng)站獲取博客數(shù)據(jù),為每一個博客(博主)賦予唯一標(biāo)識,如Bi。然后獲取博主的好友列表或關(guān)注列表;好友列表確定博主間雙向的好友關(guān)系;關(guān)注列表確定博主間單向的關(guān)注關(guān)系;好友關(guān)系可以表示為兩個互為反向的關(guān)注關(guān)系;如果博主Bi關(guān)注博主Bj,則兩者之間的關(guān)注關(guān)系標(biāo)記為<Bj,Bi,f>。接下來獲取博客Bi在t日內(nèi)粘貼的文章,參數(shù)t可設(shè)為20。對博客Bi中的每一篇文章Pix,如果Pix鏈接(引用)了博客Bj中的文章Bjy,則認(rèn)為博客Bi與博客Bj之間存在鏈接關(guān)系,標(biāo)記為<Bj,Bi,Δt>,其中Δt表示文章Bix粘貼日期與當(dāng)前日期的差值。如果博客Bi多次引用博客Bj中文章,則Δt為其中的最小值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110239145.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





