[發明專利]一種高精度微博轉發預測方法在審
| 申請號: | 201611185662.6 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN106777162A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 陳雁;郭培倫;葛憶;李平;胡棟;朱婷婷 | 申請(專利權)人: | 西南石油大學;四川數智匯通數據有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q10/04;G06Q50/00 |
| 代理公司: | 成都金英專利代理事務所(普通合伙)51218 | 代理人: | 袁英 |
| 地址: | 610500 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高精度 轉發 預測 方法 | ||
技術領域
本發明涉及微博預測和數據挖掘領域,具體是一種高精度微博轉發預測方法。
背景技術
微博是一種基于用戶關系的實時信息交流、分享、傳播的社交平臺,與Facebook、Twitter等社交網絡一樣影響了人類的生活交流方式。在微博平臺上,隨著用戶數量以億萬級為單位數量的增加,大量的圖片、文本等海量信息的背后反映的是人們的生活想法、知識和有趣的事情。微博的出現除了產生有益影響,也帶來了很多問題,例如不良言論的無約束傳播等嚴重破壞了社會生活風氣。所以,對微博用戶的活動狀態進行預測,對于政府、企事業單位、個人都有重要的意義。
在現有的微博轉發預測解決方案中,公開號為CN105550275A的中國專利公開了一種微博轉發量預測方法,用于解決現有技術中對微博轉發量預測的方法準確性較低的問題,該方法包括:獲取訓練微博數據和待預測微博數據;根據訓練微博的轉發量,將訓練微博劃分為對應的類別;提取訓練微博特征,包括轉發網絡特征、內容特征和時序特征;建立所述微博特征和轉發量類別之間的多分類模型;提取待預測微博特征,根據所述的待預測微博特征,基于多分類模型,預測待預測微博的轉發量類別。本發明在微博內容特征和時序特征的基礎上,加入多種轉發網絡特征,綜合利用三類特征來預測轉發量,提高了預測的準確性。該發明通過訓練微博數據并提取特征、建立模型的方法在一定程度上提高了微博轉發預測的準確度,但是對于多級層的微博轉發關系網,無法做到精確預測其中的級層轉發情況,而且運算成本較高。
公開號為CN103984701A的中國專利公開了一種微博轉發量預測模型生成方法及微博轉發量預測方法。微博轉發量預測模型生成方法包括:獲取訓練數據,訓練數據包括多條已知轉發量的微博;以微博的轉發量為依據,將微博分為3個以上轉發量類別;提取每條微博的基本特征;建立基本特征與轉發量類別之間的多分類模型;針對每一個轉發量類別,建立基本特征與微博轉發量之間的回歸模型。微博轉發量預測方法包括:提取待預測微博的基本特征;根據多分類模型及基本特征,判定待預測微博所屬的轉發量類別;獲取轉發量類別對應的回歸模型;根據回歸模型及基本特征,預測待預測微博的轉發量。采用本發明的提供的方法特征提取簡單且適合在大規模數據中使用。該專利與本發明采用的方法不同,且解決的問題不同。
公開號為CN104915397A的中國專利公開了一種微博傳播趨勢預測方法及裝置,用于解決現有技術中對微博傳播趨勢預測的方法準確性較低的問題,該方法包括:獲取待預測微博的基本屬性特征以及傳播過程特征;計算待預測微博與訓練數據的基本屬性特征、傳播過程特征的相似度,并對待預測微博數據進行分類,得到待預測微博所屬的傳播過程類別,傳播過程類別由訓練數據的傳播過程特征相似度聚類得到;為分類后的待預測微博選擇對應的回歸模型,對待預測微博的傳播趨勢進行預測,回歸模型為預先根據各類訓練數據建立的回歸模型,該方案提高了微博傳播趨勢預測的準確性。該專利與本發明采用的方法不同。
在現有的微博預測解決方案中,一般的隨機游走計算對于每個網絡節點的選擇權重都是一樣的,而帶權隨機游走具備一定的偏向性。例如:如果一個人轉發該用戶的微博頻率較高那么他下一次轉發的可能性就更大,反之,則不是。所以,對于多種級層關系的微博轉發關系網絡,假設微博用戶A發表了10篇微博,微博用戶B轉發了8篇,微博用戶C轉發了2篇。初始化節點權重:A=B=C=1/3,A的節點權重會以1:1的形式分給B,C,那么,如果A發布了一篇微博,將無法精確預測下一個轉發者,因為概率都一樣。
綜上所述,現有的微博預測方法存在精度低且運算成本高的問題。
發明內容
本發明的目的在于克服現有技術的不足,提供一種高精度預測微博轉發概率的方法,以至少實現提高預測精度、降低運算成本的效果。
本發明的目的是通過以下技術方案來實現的:一種高精度微博轉發預測方法,它包括以下步驟:
S1:根據微博用戶的轉發關系建立有向圖網絡;
S2:統計待測微博用戶發布的微博被轉發的總數N,以及待測微博用戶對應的各個關注者轉發的數量n1,n2,n3…ni,計算對應的每條有向邊的初始權重為
S3:統計有向網絡中節點個數M,并給予每個節點1/M的權重;
S4:更新每個節點的權重,首先以發布微博的用戶為節點,把當前節點的權重根據相應有向邊的權重分配到直接關注該微博的節點上;
S6:重復執行S4步驟,直到每個節點的權重收斂;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南石油大學;四川數智匯通數據有限公司,未經西南石油大學;四川數智匯通數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611185662.6/2.html,轉載請聲明來源鉆瓜專利網。





