[發明專利]一種基于用戶影響力以及內容的微博傳播預測方法有效
| 申請號: | 201710203904.8 | 申請日: | 2017-03-30 |
| 公開(公告)號: | CN106991160B | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 郭曉東;劉金碩;王麗娜;章嵐昕;楊廣益;陳煜森;李揚眉 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06Q50/00 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 影響力 以及 內容 傳播 預測 方法 | ||
1.一種基于用戶影響力以及內容的微博傳播預測方法,其特征在于,包括:
步驟1、基于scrapy模塊創建分布式爬蟲,利用輸入的用戶和其粉絲的新浪微博ID對該用戶和粉絲的個人信息、用戶與粉絲之間的轉發關系、轉發微博進行信息抓取;抓取的信息包括,用戶方面:用戶名、用戶新浪ID、用戶新浪微博標簽、待預測微博正文內容、待預測微博發布時間、用戶粉絲數量,用戶關注;粉絲方面:粉絲名、粉絲新浪ID、粉絲的新浪標簽、粉絲微博總數、粉絲轉發用戶的微博數以及轉發時間;
步驟2、基于PageRank模塊來計算用戶在微博網絡中的權威程度,計算公式為:
其中Vi表示用戶ID;F(Vi)表示用戶的粉絲ID集合;L(Vj)表示用戶的關注其他用戶數;a為傳播阻尼系數,表示該用戶隨機關注其他用戶的概率;其大小影響迭代算法的效果和收斂速度,取值范圍(0,1);從抓取到的用戶關系網絡結構數據中計算用戶PageRank值,進行歸一化處理,形成用戶權威預測因子;
步驟3、將一天平均分為N個時間段,采用單個時間段粉絲轉發微博占粉絲所有轉發微博中百分比的計算方法,計算出粉絲關于N個不同時間段的粉絲時間段活躍度預測因子;
步驟4、采用TF-IDF詞語權重技術對微博內容進行重要性分析,計算公式如下:其中:nw表示d在微博w中出現的次數;N表示所有微博集合W中包含的微博總數;nd表示所有微博集合W中包含詞語d的微博數量;微博w的TF-IDF計算值就可以用微博w中出現的所有詞語的TF-IDF值之和來表示:tf(w)=∑jtf(dj);將計算得到的TF-IDF值進行歸一化,即提取到的微博重要性預測因子;
步驟5、利用滾雪球的抽樣方法將提取到的轉發關系數據劃分成M折;
步驟6、在每一次的抽取的樣例中,將已轉發微博標記為微博轉發訓練集,即正向訓練集;將未被轉發的微博標記為未轉發訓練集,即負向訓練集;利用WEKA平臺提供的分類器API,貝葉斯網絡訓練網絡標注特征值依次為,微博重要性預測因子、粉絲時間段活躍度預測因子、原微博用戶權威性預測因子;進行有監督的貝葉斯網絡對訓練集進行訓練,直至分類器參數收斂;貝葉斯網絡基于公式:
其中,P(B∩A)表示A與B的聯合概率,聯合概率表示兩個事件共同發生的概率;P(B)是B的邊緣概率,邊緣概率又稱先驗概率,是B事件發生的概率;在預測錯誤的先驗概率B發生的情況下,找出最大概率P(A|B)的值就是可以最大概率地預測微博轉發。
2.根據權利要求1所述的一種基于用戶影響力以及內容的微博傳播預測方法,其特征在于,所述步驟5具體包括:先在未被選取的樣例中隨機選擇一些節點,然后再用簡單的寬度優先搜索算法,從選中的用戶節點擴展成一個節點范圍,這個節點范圍就可以被作為一個完整的抽樣樣例;然后再從未被選取的樣例中隨機選擇一些節點,依次類推;因為網絡結構的信息是十分龐大的,所以10次滾雪球抽樣基本不會相互覆蓋;將已轉發微博標記為微博轉發訓練集,將未轉發微博標記為微博忽略訓練集。
3.根據權利要求1所述的一種基于用戶影響力以及內容的微博傳播預測方法,其特征在于,還包括一個驗證貝葉斯模型的步驟,通過步驟1-6得到一個成熟的可用于預測的貝葉斯模型,對于這個模型的,驗證貝葉斯模型效果的具體方法是:用8次抽樣來訓練,用剩下2次抽樣來驗證分類器效果;反復進行交叉驗證,即變換訓練樣例與驗證樣例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710203904.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于生成信息的方法和裝置
- 下一篇:一種自動生成開放式問題答案的方法





