[發明專利]一種提升用戶在視頻網站留存時間的視頻推薦系統方法在審
| 申請號: | 202110026449.5 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699271A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 何明;劉賓 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06N3/08;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提升 用戶 視頻 網站 留存 時間 推薦 系統 方法 | ||
1.一種提升用戶在視頻網站留存時間的視頻推薦系統方法,其特征在于,包括以下步驟:
步驟一、獲取視頻網站用戶的數據集,并進行數據預處理;
步驟二、在進行數據預處理后,使用Pytorch深度學習框架,搭建深度興趣交叉網絡模型;
步驟三、定義損失函數;
步驟四、通過損失函數對深度興趣交叉網絡模型進行訓練;
步驟五、使用步驟四訓練好的深度興趣交叉網絡模型對測試數據進行測試,得到結果后與原始數據集中的結果進行比較,從而計算出模型推薦的準確率。
2.根據權利要求1所述的一種提升用戶在視頻網站留存時間的視頻推薦系統方法,其特征在于,在步驟一中,數據預處理流程包括唯一屬性特征處理、缺失值處理、異常值處理。整個數據預處理由pandas框架完成,首先將視頻網站用戶的數據集中的數據中屬性值唯一的特征進行刪除提高樣本間區分度。然后進行缺失值的處理,對于分類特征的缺失值,隨機選擇相鄰樣本的屬性值進行填充;對于連續特征的缺失值,計算其余樣本特征累加和的平均數進行屬性值的填充。最后處理特征中的異常值以防止對模型的訓練產生負面影響,通過k-means算法進行聚類檢測離群點,然后進行樣本的刪除。
3.根據權利要求1所述的一種提升用戶在視頻網站留存時間的視頻推薦系統方法,其特征在于,在步驟二中,按照以三個特征提取模塊并行訓練作為的設計架構,通過自底向上逐步建立各個處理模塊的方式搭建深度興趣交叉網絡模型,具體包括以下步驟:
步驟21、建立數據轉換模塊,將預處理后的數據映射到低維的稠密向量空間,轉換后的數據可以直接被輸送到深度興趣交叉網絡模型進行訓練。同時,預處理后的數據經過數據轉換模塊加工后,數據被映射成低維的向量,極大降低了模型參數量從而加快模型的訓練速度。
步驟22、構建低階特征提取模塊,低階特征模塊構建以因子分解機為核心。將因子分解機引入到該模塊中進行自動化地進行特征組合,學習一階特征和二階特征。
步驟23、構建交叉網絡特征提取模塊,交叉網絡特征模塊可以彌補深度神經網絡的不足。交叉網絡特征模塊對高階特征進行學習,交叉網絡特征模塊提升模型整體的可解釋性。
步驟24、構建深度興趣特征提取模塊,深度興趣特征提取模塊由深度神經網絡與Attention機制串行組成。深度神經網絡端到端隱式地學習高階特征。
4.根據權利要求1所述的一種提升用戶在視頻網站留存時間的視頻推薦系統方法,其特征在于,在步驟三中,深度興趣交叉網絡模型損失函數定義如下:最終輸出的損失函數定義為:
其中,losso表示二元交叉熵損失,y為每個樣本的標簽值;為模型預測樣本值為1或0時的概率值。
5.根據權利要求1所述的一種提升用戶在視頻網站留存時間的視頻推薦系統方法,其特征在于,在步驟四中,使用預處理的數據集對神經網絡模型進行訓練,直至其收斂,使用的兩個評價指標為AUC和Logloss,公式如下:
其中,AUC為受試者工作特征曲線下的面積,M為正類樣本的數目,N為負類樣本的數目。insi為樣本的下標,代表預測概率超過的該樣本的數目。Logloss表示二元交叉熵損失,y為每個樣本的標簽值,取值為0或1.為模型預測樣本值為1或0時的概率值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110026449.5/1.html,轉載請聲明來源鉆瓜專利網。





