[發明專利]一種基于大數據的短視頻活躍用戶預測方法有效
| 申請號: | 201910027207.0 | 申請日: | 2019-01-11 |
| 公開(公告)號: | CN109784997B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 王進;閔子劍;許景益;孫開偉;劉彬 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06N3/04 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅;陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 視頻 活躍 用戶 預測 方法 | ||
1.一種基于大數據的短視頻活躍用戶預測方法,其特征在于,包括以下步驟:
101、對用戶的歷史行為數據進行包括“僵尸”用戶處理步驟、用戶注冊設備處理步驟在內的預處理操作;
用戶注冊設備處理步驟具體包括:對用戶注冊設備采用平均值編碼方法進行編碼,在貝葉斯的架構下,利用所要預測的應變量,有監督地確定最適合這個定性特征的編碼方式;所述平均值編碼方法具體包括:將用戶注冊設備處理中的每一個設備類別k,都表示為它所對應的目標y值的先驗概率與后驗概率的一個凸組合,引入先驗概率的權重λ來計算編碼所用概率權重λ與設備在數據集出現的次數有關;
其中n為一個設備類型出現的次數,k為設備類型,prior為用戶使用該短視頻APP的概率即先驗概率、posterior為用戶注冊賬號所使用的設備類型為k時,使用該短視頻APP的概率即后驗概率,device_type為用戶注冊時所使用的設備類型、y表示用戶未來7天是否使用該短視頻APP,1表示使用,0表示未使用;
102、根據注冊時間將用戶劃分成訓練集候選用戶和測試集候選用戶;
103、將訓練集候選用戶和測試集候選用戶的歷史行為轉化為時序序列,再將時序序列根據時間劃窗劃分為訓練集和測試集;
104、對作為訓練集的時序序列進行打標;
105、通過時序序列建立many-to-many多輸入對多輸出結構的LSTM長短期記憶網絡模型;many-to-many多輸入對多輸出結構即每個輸入都對應輸出之后7天是否活躍;
106、根據用戶歷史行為時間序列,采用LSTM長短期記憶網絡模型對當月注冊用戶在未來一周是否會使用相應短視頻APP進行預測;
所述步驟105通過時序序列建立many-to-many結構的LSTM模型,具體步驟為:
1051.輸入序列:對各類行為序列直接輸入;
1052.Intercept截距拼接:在輸出層直接做一個intercept拼接,將日期、device_type、register_type進行one-hot后輸入;
1053.Batch數據塊選擇:隨機采樣一定樣本作為一個batch數據塊;
1054.循環三角退火快照:通過循環調整網絡學習率使網絡依次收斂到不同的局部最優解處,將網絡學習率η設置為隨模型迭代輪數t改變的函數,即:
其中,η0為初始學習率,t為模型迭代輪數,T為模型中的批處理訓練次數,M為學習率“循環退火”次數,其對應了模型將收斂到的局部最優解個數,公式(2)利用余弦函數的循環性來循環更新網絡學習率,將學習率從0.1隨t的增長逐漸減緩到0,之后將學習率重新放大從而跳出該局部最優解,自此開始下一循環的訓練,此循環結束后可收斂到新的局部最優解處,如此循環往復,直到10個循環結束,因為公式(2)中利用正弦函數和余弦函數循環更新網絡參數,所以這一過程被稱為“循環三角退火”過程;
1055.權值臨界集成:采用權值臨界集成策略,權值臨界集成的工作原理分為兩個步驟:
(1)首先,給最終集成模型的權值賦值7個模型“快照”的權值的平均值:
其中ωi為第i個模型“快照”的權值,即在權重空間而不是模型空間對這些點進行平均;
(2)在每個學習率周期的末尾,使用當前模型“快照”的權值將用來更新最終集成模型的權值,更新公式如下式所示:
其中nmodels為模型“快照”的序數,ωi為第i個模型“快照”的權值;
所述步驟106根據當月用戶歷史行為時間序列,對用戶在未來一周是否會使用相應短視頻APP進行預測,具體步驟為:
根據LSTM模型,構建的框架實現基于循環余弦退火快照的集成框架,其核心思想為:(1)學習率采用循環三角學習率退火使得LSTM模型產生多個模型“快照”;(2)通過不同階段的模型所產生的模型“快照”采用權值臨界集成策略進行集成,最終得到的用戶活躍概率:
其中t為時間序列長度,x(t)為模型的第t次輸入,h為隱層單元,而U,V,W,P為權值空間ωSWA中的權值,prob為最終得到的用戶活躍概率,當prob大于0.56的時候,說明當前測試數據對應的用戶很大可能是活躍用戶,會在規定時間內使用該短視頻APP。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910027207.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種優惠信息的個性化分配方法及系統
- 下一篇:一種廣告雙頻次控制的方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





