[發(fā)明專利]一種基于信息增益和BP神經(jīng)網(wǎng)絡(luò)的熱門微博預(yù)測方法在審
| 申請?zhí)枺?/td> | 201610880756.9 | 申請日: | 2016-09-28 |
| 公開(公告)號: | CN107870957A | 公開(公告)日: | 2018-04-03 |
| 發(fā)明(設(shè)計)人: | 鄭志蘊;江國林;張行進(jìn);王振飛;李鈍 | 申請(專利權(quán))人: | 鄭州大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 信息 增益 bp 神經(jīng)網(wǎng)絡(luò) 熱門 預(yù)測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及社交網(wǎng)絡(luò)與輿情分析領(lǐng)域,具體地說,涉及一種基于信息增益與BP神經(jīng)網(wǎng)絡(luò)的熱門微博預(yù)測方法。
背景技術(shù)
隨著Web2.0的迅速發(fā)展,微博已經(jīng)成為現(xiàn)代社會最重要的新媒體平臺之一。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心CNNIC發(fā)布的第37次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2015年12月底,我國微博用戶規(guī)模達(dá)到2.31億,網(wǎng)民使用率為33.5%。龐大的用戶群、短小精悍的內(nèi)容和豐富多樣的表現(xiàn)形式使得微博具有強大的傳播性與互動性。微博已經(jīng)成為了信息發(fā)布的重要渠道、網(wǎng)絡(luò)營銷的重要手段和網(wǎng)絡(luò)輿情的重要載體,對國家安全和社會發(fā)展都產(chǎn)生了深遠(yuǎn)的影響。相比普通微博,熱門微博能夠得到更大量的傳播和更廣泛的關(guān)注,因此分析熱門微博的影響因素并對熱門微博進(jìn)行預(yù)測研究,對于企業(yè)的產(chǎn)品推廣和營銷、政府的輿情監(jiān)控和引導(dǎo),都具有重要的意義。
發(fā)明內(nèi)容
本發(fā)明目的在于設(shè)計了一種基于信息增益與BP神經(jīng)網(wǎng)絡(luò)的熱門微博預(yù)測方法,對微博的內(nèi)容特征、博主特征、傳播特征進(jìn)行分析,并從中提取關(guān)鍵特征,將信息增益算法和BP神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,利用微博的內(nèi)容和博主特征來預(yù)測該微博能否成為熱門微博。通過該 方法可以對剛發(fā)布的微博熱度進(jìn)行及時預(yù)測,為微博營銷和輿情引導(dǎo)提供支撐信息。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明提供一種基于信息增益與BP神經(jīng)網(wǎng)絡(luò)的熱門微博預(yù)測方法,包括以下步驟:
1、特征分析:將微博分為內(nèi)容特征、博主特征和傳播特征三大特征,并根據(jù)微博的傳播規(guī)律,分析得到微博的內(nèi)容和博主特征決定其傳播特征,微博的傳播特征決定微博的熱度。
2、傳播特征提?。哼x取轉(zhuǎn)發(fā)數(shù)、點贊數(shù)、評論數(shù)、平均轉(zhuǎn)發(fā)數(shù)、平均點贊數(shù)、平均評論數(shù)作為研究對象,分別做出熱門微博與非熱門微博的上述特征的累積分布函數(shù)曲線對比,提取微博傳播的關(guān)鍵特征,對微博的熱度進(jìn)行度量。
3、內(nèi)容特征提取:(1)對微博文本進(jìn)行處理,對微博文本進(jìn)行分詞、去停用詞,從中挖掘關(guān)鍵詞并統(tǒng)計相應(yīng)詞頻;(2)忽略內(nèi)嵌外部鏈接(URL),在實際微博應(yīng)用中,網(wǎng)頁鏈接很少,而且由于跳轉(zhuǎn)的等待時間較長,安全性不能保證,大多數(shù)人不愿意打開,忽略后能夠盡可能的消除網(wǎng)頁交互的噪聲數(shù)據(jù)。(3)綜合考慮微博文本中的圖片、視頻、長微博、表情、話題(“#主題名#”)等用戶自定義標(biāo)簽,將微博文本指標(biāo)化。
4、博主特征提?。簭牟┲鞯拈L期和近期影響力兩方面出發(fā),選取博主的粉絲數(shù)、最近微博被轉(zhuǎn)發(fā)數(shù)、被點贊數(shù)、被評論數(shù)等特征,同時為了消除指標(biāo)之間的量綱影響,需要進(jìn)行歸一化 處理,以解決特征指標(biāo)之間的可比性。
5、利用信息增益算法,推導(dǎo)微博的熱度計算公式:信息增益算法是一種基于信息熵的評估方法,可以衡量一個特征區(qū)分?jǐn)?shù)據(jù)樣本的能力。設(shè)U是具有t個特征t1,t2,…,tt的數(shù)據(jù)集,劃分為m個不同類別C1,C2,…,Cm,對某個特征ti的可能取值為x1,x2,…,xn,則該特征的信息增益計算公式如下:
根據(jù)各特征的信息增益,可以計算該特征對于類別劃分的貢獻(xiàn)和權(quán)值。某特征ti的權(quán)值wi的計算公式如下:
其中Gmean為所有特征的平均增益值。
在微博的傳播特征中,不同特征對于微博熱度的區(qū)分度不同,因此對于微博熱度的權(quán)重也不同。本發(fā)明采用信息增益算法定量計算各傳播特征對于微博熱度的權(quán)值,進(jìn)而推導(dǎo)微博的熱度計算公式。
6、建立BP神經(jīng)網(wǎng)絡(luò)模型推算微博熱度:微博的傳播特征是在傳播過程中逐漸產(chǎn)生,微博的內(nèi)容和博主特征決定其傳播特征,因此采用微博的內(nèi)容和博主特征對微博的傳播特征進(jìn)行預(yù)測。應(yīng)用1986年由Rumelhart和McCelland為首的科學(xué)家小組提出的BP神經(jīng)網(wǎng)絡(luò)模型,利用BP神經(jīng)網(wǎng)絡(luò)非線性映射能力和自學(xué)習(xí)自適應(yīng)的特點,對微博熱度進(jìn)行預(yù)測。
7、在實際微博網(wǎng)絡(luò)中進(jìn)行實證統(tǒng)計實驗,以此確定模型的重 要參數(shù),并根據(jù)微博熱度預(yù)測該微博能否成為熱門微博。
有益效果:
1、對微博特征進(jìn)行分類,并根據(jù)微博的傳播規(guī)律,充分發(fā)掘微博特征之間的關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州大學(xué),未經(jīng)鄭州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610880756.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計算機程序產(chǎn)品
- 在電梯設(shè)備中提供多媒體-內(nèi)容服務(wù)的方法、系統(tǒng)和計算機程序產(chǎn)品
- 山藥低分子提取物與制備方法
- 一種DNA?Marker及其制備工藝
- 一種調(diào)整終端工作帶寬的方法及裝置
- 一種資源指示的方法、設(shè)備及系統(tǒng)
- 一種通信方法、用戶設(shè)備、網(wǎng)絡(luò)設(shè)備和通信系統(tǒng)
- 一種具有熒光標(biāo)記的核酸分型標(biāo)準(zhǔn)物及其制備方法和應(yīng)用
- 聚-γ-谷氨酸的生產(chǎn)方法
- 罌粟DNA條形碼測序及分子鑒定方法





