[發(fā)明專利]一種基于類引力建模進行微博轉(zhuǎn)發(fā)預(yù)測的方法在審
| 申請?zhí)枺?/td> | 201611184741.5 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN106599249A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計)人: | 陳雁;郭培倫;朱婷婷;李平;胡棟;黨正陽 | 申請(專利權(quán))人: | 西南石油大學(xué);四川數(shù)智匯通數(shù)據(jù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q10/04;G06Q50/00 |
| 代理公司: | 成都金英專利代理事務(wù)所(普通合伙)51218 | 代理人: | 袁英 |
| 地址: | 610500 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 引力 建模 進行 轉(zhuǎn)發(fā) 預(yù)測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及微博預(yù)測領(lǐng)域,具體是一種基于類引力建模進行微博轉(zhuǎn)發(fā)預(yù)測的方法。
背景技術(shù)
微博是一種基于用戶關(guān)系的實時信息交流、分享、傳播的社交平臺,與Facebook、Twitter等社交網(wǎng)絡(luò)一樣影響了人類的生活交流方式。在微博平臺上,隨著用戶數(shù)量以億萬級為單位數(shù)量的增加,大量的圖片、文本等海量信息的背后反映的是人們的生活想法、知識和有趣的事情。微博的出現(xiàn)除了產(chǎn)生有益影響,也帶來了很多問題,例如不良言論的無約束傳播等嚴重破壞了社會生活風(fēng)氣。所以,對微博用戶的活動狀態(tài)進行預(yù)測,對于政府、企事業(yè)單位、個人都有重要的意義。
現(xiàn)有的微博轉(zhuǎn)發(fā)預(yù)測解決方案中,公開號為CN103984701A的中國專利公開了一種微博轉(zhuǎn)發(fā)量預(yù)測模型生成方法及微博轉(zhuǎn)發(fā)量預(yù)測方法。微博轉(zhuǎn)發(fā)量預(yù)測模型生成方法包括:獲取訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)包括多條已知轉(zhuǎn)發(fā)量的微博;以微博的轉(zhuǎn)發(fā)量為依據(jù),將微博分為3個以上轉(zhuǎn)發(fā)量類別;提取每條微博的基本特征;建立基本特征與轉(zhuǎn)發(fā)量類別之間的多分類模型;針對每一個轉(zhuǎn)發(fā)量類別,建立基本特征與微博轉(zhuǎn)發(fā)量之間的回歸模型。微博轉(zhuǎn)發(fā)量預(yù)測方法包括:提取待預(yù)測微博的基本特征;根據(jù)多分類模型及基本特征,判定待預(yù)測微博所屬的轉(zhuǎn)發(fā)量類別;獲取轉(zhuǎn)發(fā)量類別對應(yīng)的回歸模型;根據(jù)回歸模型及基本特征,預(yù)測待預(yù)測微博的轉(zhuǎn)發(fā)量。采用本發(fā)明的提供的方法特征提取簡單且適合在大規(guī)模數(shù)據(jù)中使用。該專利與本發(fā)明處于相同的領(lǐng)域,但是解決的問題不同,現(xiàn)有的解決方案不能解決本發(fā)明所要解決的問題。
對于多種級層關(guān)系的微博轉(zhuǎn)發(fā)關(guān)系網(wǎng),只能通過逐次迭代計算級層關(guān)系來預(yù)測某種特定的級層的轉(zhuǎn)發(fā)情況,不能隨意預(yù)測第K批關(guān)注者的轉(zhuǎn)發(fā)情況,預(yù)測效率較低。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于類引力建模進行微博轉(zhuǎn)發(fā)預(yù)測的方法,以至少實現(xiàn)隨意預(yù)測第K批微博關(guān)注者的轉(zhuǎn)發(fā)情況、提高預(yù)測效率的效果。
本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于類引力建模進行微博轉(zhuǎn)發(fā)預(yù)測的方法,它包括以下步驟:
S1:根據(jù)微博用戶之間的轉(zhuǎn)發(fā)關(guān)系,基于有向邊建立有向圖網(wǎng)絡(luò);
S2:統(tǒng)計有向圖網(wǎng)絡(luò)中的節(jié)點個數(shù)M,并給予每個節(jié)點1/M的權(quán)重;
S3:統(tǒng)計待測微博用戶發(fā)布的微博被轉(zhuǎn)發(fā)的總數(shù)N,以及待測微博用戶對應(yīng)的各個關(guān)注者所轉(zhuǎn)發(fā)的數(shù)量n1,n2,n3…ni,計算每個關(guān)注者對應(yīng)的每條有向邊的初始權(quán)重為:
S4:首先以發(fā)布微博的用戶為節(jié)點,把當(dāng)前節(jié)點的權(quán)重根據(jù)有向邊的權(quán)重分配到關(guān)注該節(jié)點的所有節(jié)點上,用以更新關(guān)注該節(jié)點的每個節(jié)點的權(quán)重;
S5:根據(jù)更新以后的節(jié)點權(quán)重計算相應(yīng)的有向邊的權(quán)重;
S6:循壞執(zhí)行S5~S6步驟,用以更新每個節(jié)點的權(quán)重,直到每個節(jié)點的權(quán)重收斂;
S7:根據(jù)需要獲取待測微博用戶的K度關(guān)注者的節(jié)點權(quán)重k1,k2,…kn;
S8:計算待測微博用戶到選定的一個K度關(guān)注者的引力指數(shù):
其中,M為待測微博用戶的節(jié)點權(quán)重,m為選定的一個K度關(guān)注者的節(jié)點權(quán)重,r為M到m的一條路線的所有有向邊的權(quán)重之和的倒數(shù),G根據(jù)實際需要設(shè)定;
S9:根據(jù)需要設(shè)定一個閾值Q1,判斷引力指數(shù)F是否超過該閾值Q1,如果超過Q1,則保留F,如果沒超過Q1,則去除F,然后進行該階段的轉(zhuǎn)發(fā)預(yù)測;如果引力指數(shù)F都不超過該閾值Q1,則不能進行K度轉(zhuǎn)發(fā)預(yù)測。
所述步驟S1中的有向邊是由被關(guān)注者指向關(guān)注者的單向邊。
所述步驟S2中的節(jié)點為涉及到轉(zhuǎn)發(fā)微博的關(guān)注者,節(jié)點個數(shù)M為涉及到轉(zhuǎn)發(fā)微博的關(guān)注者的個數(shù)。
所述的K度關(guān)注者為第K批關(guān)注轉(zhuǎn)發(fā)微博的用戶,第K批用戶通過關(guān)注第K-1批用戶關(guān)注到該轉(zhuǎn)發(fā)微博。
所述步驟S4中,根據(jù)關(guān)注者轉(zhuǎn)發(fā)的被關(guān)注者發(fā)布的微博數(shù)占被關(guān)注者被轉(zhuǎn)發(fā)的微博總數(shù)的比例進行分配權(quán)重。
所述步驟S6中通過設(shè)定一個閾值Q2,判斷每個節(jié)點的權(quán)重的變化率是否小于該閾值Q2,若是,則停止迭代,否則繼續(xù)迭代直到每個節(jié)點的權(quán)重收斂。
所述的G從一個設(shè)定值開始,通過測驗預(yù)測效果直到找到最佳預(yù)測效果下的G值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西南石油大學(xué);四川數(shù)智匯通數(shù)據(jù)有限公司,未經(jīng)西南石油大學(xué);四川數(shù)智匯通數(shù)據(jù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611184741.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





