[發明專利]基于組合策略的社交網絡媒體信息流行度預測方法有效
| 申請號: | 202010941998.0 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112036659B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 張勇東;毛震東;王凱 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/00;G06F16/903;G06K9/62;G06N20/20 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 組合 策略 社交 網絡媒體 信息 流行 預測 方法 | ||
1.一種基于組合策略的社交網絡媒體信息流行度預測方法,其特征在于,包括:
對于訓練集中每一包含多媒體特征的帖子,從中提取多模態特征,包括:圖像特征、文本特征、社交信息中的數字特征以及類別特征,或者還包括用戶特征;
使用滑動窗口平均化來處理當前帖子的文本特征和圖像特征,挖掘相同用戶不同帖子間的潛在關聯,并將平均化結果作為當前帖子的文本和圖像特征,再與當前帖子的其他特征拼接融合;
在進行特征拼接融合后,基于CatBoost根據是否包含用戶特征來訓練兩個獨立的模型,CatBoostA模型與CatBoostB模型;
測試階段,對于待預測的帖子,根據其是否包含用戶特征來對訓練后的CatBoostA模型與CatBoostB模型設置不同的權重進行社交媒體流行度預測;
所述使用滑動窗口平均化來處理文本和圖像特征包括:
對臨近時間的用戶帖子特征進行平均處理作為當前帖子特征,對第i個用戶,第j個帖子的滑動窗口平均處理后的特征通過以下公式計算:
其中,xi,j為經過特征提取后的第i個用戶,第j個帖子的原始特征,所述原始特征為未進行滑動窗口平均之前的文本特征或者圖像特征;s為窗口大小。
2.根據權利要求1所述的一種基于組合策略的社交網絡媒體信息流行度預測方法,其特征在于,
通過預訓練模型ResNeXt從帖子中的圖像中提取通用特征表示,預訓練模型ResNeXt最后一個池化層輸出的特征即為圖像特征;
通過預訓練的深度學習模型Bert和Glove提取文本特征;對于每一個句子各自通過預訓練的深度學習模型Bert和Glove提取向量,再進行平均化作為整個句子的文本特征;
社交信息中的數字特征包括:非數值形式的特征,即帖子的時間戳;以及數值形式的特征,即發布位置、轉發數目、評論數目和點贊數目;對于時間戳,轉化成數值形式的年月日小時格式;
類別特征包括:利用CatBoost的有序目標統計方法將用戶ID、用戶類型和發布平臺各自進行轉換,獲得的統計值;
用戶特征包括:用戶在社交媒體上的粉絲數、關注數以及平均瀏覽量。
3.根據權利要求1所述的一種基于組合策略的社交網絡媒體信息流行度預測方法,其特征在于,所述基于CatBoost根據是否包含用戶特征來訓練兩個獨立的模型,CatBoostA模型與CatBoostB模型包括:
CatBoostA模型使用全部的訓練集來訓練,訓練過程中不使用用戶特征;CatBoostB模型使用訓練集中含有用戶特征信息的帖子集合作為訓練集,使用全部的特征類型進行訓練;兩個模型訓練階段的目標函數是最小化的均方根誤差RMSE。
4.根據權利要求1所述的一種基于組合策略的社交網絡媒體信息流行度預測方法,其特征在于,
對于包含用戶特征的帖子采用下述方式獲得社交媒體流行度預測值:
y=α1*yA+(1α1)*yB
對于不包含用戶特征的帖子采用下述方式獲得社交媒體流行度預測值:
y=α2*yA+(1α2)*yB
其中,yA和yB分別是CatBoostA模型和CatBoostB模型的輸出預測值,α1和α2為超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010941998.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





