[發明專利]一種基于新聞圖片特點的推薦方法、裝置、設備及介質在審
| 申請號: | 202210532054.7 | 申請日: | 2022-05-06 |
| 公開(公告)號: | CN114896444A | 公開(公告)日: | 2022-08-12 |
| 發明(設計)人: | 黃修斌 | 申請(專利權)人: | 上海二三四五網絡科技有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06N3/04;G06N3/08 |
| 代理公司: | 上海海鈞知識產權代理事務所(特殊普通合伙) 31330 | 代理人: | 許蘭;王睿 |
| 地址: | 200135 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 新聞 圖片 特點 推薦 方法 裝置 設備 介質 | ||
本申請公開了一種基于新聞圖片特點的推薦方法、裝置、設備及介質,本申請從用戶點擊行為數據中選取頁面訪問量PV大于第一預設閾值、或者UV點擊率大于第二預設閾值且獨立訪問量UV大于第三預設閾值的行為數據作為訓練的正樣本,選擇UV點擊率小于第四預設閾值的樣本作為訓練的負樣本,將樣本數據劃分為訓練集和測試集,利用深度學習模型和用戶點擊信息提取圖片特征,圖片特征可以運用新物品熱點預測和作為排序模型特征進行模型學習。本申請可以通過新聞圖片信息進行召回和點擊率預估,實現精準的新聞推薦。
技術領域
本發明涉及互聯網信息技術領域,尤其涉及一種基于新聞圖片特點的推薦方法、裝置、設備及介質。
背景技術
對于新聞來說,用戶能看到的主要是新聞標題和圖片。當前,對于資訊特征,現有技術中主要針對新聞標題進行挖掘,例如:關鍵詞、語義信息等,往往無法得到準確的結果。
新聞圖片相對于文字更能影響用戶的點擊決策。因此,如何更進一步挖掘新聞圖片信息進行召回和點擊率預估,實現精準的新聞推薦,是本領域技術人員亟待解決的問題。
發明內容
本發明的目的在于提供一種基于新聞圖片特點的推薦方法、裝置、設備及介質,以解決上述技術背景中提出的問題。
為實現上述目的,本發明采用以下技術方案:
本申請第一個方面提供了一種基于新聞圖片特點的推薦方法,包括:
S1,準備訓練樣本:從用戶點擊行為數據中選取頁面訪問量PV大于第一預設閾值、或者UV點擊率大于第二預設閾值且獨立訪問量UV大于第三預設閾值的行為數據作為訓練的正樣本,選擇UV點擊率小于第四預設閾值的樣本作為訓練的負樣本,控制負樣本的數量為正樣本數量的三倍,將正樣本和負樣本組成的樣本數據按照預設比例拆分為訓練集和測試集,并以tfrecords文件格式進行保存;
S2,訓練圖片模型:加載tfrecords數據和深度學習模型,調整深度學習模型的配置參數,將tfrecords數據輸入深度學習模型對所述深度學習模型進行訓練,輸出圖片的預測概率,計算所述深度學習模型的評估指標AUC,當AUC達到預設指標以上時,保存模型;
S3,輸出圖片特征數據:當有新的新聞圖片入庫時,使用步驟S2中保存的模型進行預測,獲取全連接層的權重作為圖片特征,記為f,以及獲取輸出的預測概率作為熱度值,記作p;保存所有圖片的特征數據;
S4,利用圖片特征進行推薦:將p數據輸入排序模型,排序模型將p數據進行從大到小進行排序,熱點概率排在前N個的新聞作為預測的熱點新聞進行優先推薦;將f數據作為一維特征輸入至所述排序模型中,根據所述排序模型的排序結果確定用戶匹配的待推薦新聞。
優選地,步驟S1中,所述第一預設閾值為2000,所述第二預設閾值為0.01,所述第三預設閾值為100,所述第四預設閾值為0.0005。
優選地,步驟S2中,所述預設指標為0.9。
優選地,步驟S2中,調整深度學習模型的配置參數包括如下步驟:
選取VGG16作為深度學習模型,將input_shape參數設置為向用戶展現新聞時的尺寸,渠道數配置為3,不包含最后3個全連接層,配置固化VGG16深度學習模型的前16層,增加連接層結構分別為128維、64維和12維的三層全連接層,最后一層為simoid激活函數計算概率。
優選地,所述深度學習模型包括、但不限于VGG16、ResNet、ImageBert、Faster R-CNN中的一種。
本申請第二個方面提供了一種基于新聞圖片特點的推薦裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海二三四五網絡科技有限公司,未經上海二三四五網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210532054.7/2.html,轉載請聲明來源鉆瓜專利網。





