[發明專利]基于組合策略的社交網絡媒體信息流行度預測方法有效
| 申請號: | 202010941998.0 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112036659B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 張勇東;毛震東;王凱 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/00;G06F16/903;G06K9/62;G06N20/20 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 組合 策略 社交 網絡媒體 信息 流行 預測 方法 | ||
本發明公開了一種基于組合策略的社交網絡媒體信息流行度預測方法,使用滑動窗口平均,來解決每個用戶帖子之間的依賴性,在一定時間內進行特征平均,來挖掘帖子之間的時間相關性,額外利用了一部分時間信息,來獲得精確的預測結果。此外,使用組合策略訓練組合的CatBoost模型,可以針對不同的帖子進行預測,有更好的普遍性與靈活性。
技術領域
本發明涉及網絡空間安全技術領域,尤其涉及一種基于組合策略的社交網絡媒體信息流行度預測方法。
背景技術
隨著社會的高速發展,越來越多的社交媒體平臺出現并且吸引了大量的用戶,比如微博,Twitter,Flickr,Facebook等。以微博和Flickr為例,每天都有上億的用戶發布分享數量龐大,種類繁多的信息。通過預測社交媒體上信息的受歡迎程度,一方面研究人員可以更好的分析各種問題并開發出廣泛的應用來服務社會,比如信息檢索系統、推薦系統和事件檢測系統。另一方面,對于社交媒體上信息的分析有助于揭示個人偏好和公眾關注度,這對于預測社會趨勢和做出更好的未來戰略決策有很大的幫助。
對于社交媒體流行度預測可以分為兩個部分:多模態特征的提取和回歸模型的建立。在特征提取上,目前所有的方法僅對用戶的每個帖子單獨處理,雖然達到了比較好的效果,但是這種處理方法忽視了用戶可能更傾向于在相近的時間內發布相同主題的帖子,表達自己觀點這一現象,單獨處理每個帖子沒有考慮用戶不同帖子間的潛在關聯。而在回歸模型的選取上,最近基于集成學習的方法在各種任務的回歸中都表現出了優越的性能,一些先進的集成學習模型如RandomForest、XGBoost、LightGBM和CatBoost在社交媒體流行度預測領域的研究應用中也得到了廣泛的應用,并且取得了最好的效果,但是這些方法針對目前規模最大的數據集中1/4缺失的用戶粉絲數等數據沒有進行有效建模,這些方法可以分為兩種:對粉絲數這些缺失數據補零或者不使用缺失數據建模,而對于大量缺失數據補零會改變數據的分布,不使用粉絲數等數據時明顯忽視了有大量粉絲數的用戶帖子會有更高的流行度這一現象,這些方法都會錯誤的估計社會焦點。
發明內容
本發明的目的是提供一種基于組合策略的社交網絡媒體信息流行度預測方法,可以針對帖子是否包含用戶特征使用不同的模型進行預測,有更好的普遍性與靈活性,也能夠獲得精確的預測結果
本發明的目的是通過以下技術方案實現的:
一種基于組合策略的社交網絡媒體信息流行度預測方法,包括:
對于訓練集中每一包含多媒體特征的帖子,從中提取多模態特征,包括:圖像特征、文本特征、社交信息中的數字特征以及類別特征,或者還包括用戶特征;
使用滑動窗口平均化來處理當前帖子的文本特征和圖像特征,挖掘相同用戶不同帖子間的潛在關聯,并將平均化結果作為當前帖子的文本和圖像特征,再與當前帖子的其他特征拼接融合;
在進行特征拼接融合后,基于CatBoost根據是否包含用戶特征來訓練兩個獨立的模型,CatBoostA模型與CatBoostB模型;
測試階段,對于待預測的帖子,根據其是否包含用戶特征來對訓練后的CatBoostA模型與CatBoostB模型設置不同的權重進行社交媒體流行度預測。
由上述本發明提供的技術方案可以看出,使用滑動窗口平均,來解決每個用戶帖子之間的依賴性,在一定時間內進行特征平均,來挖掘帖子之間的時間相關性,額外利用了一部分時間信息,來獲得精確的預測結果。此外,使用組合策略訓練組合的CatBoost模型,可以針對不同的帖子進行預測,有更好的普遍性與靈活性。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010941998.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





