[發明專利]負樣本構造方法、裝置、計算設備及存儲介質在審
| 申請號: | 202310423240.1 | 申請日: | 2023-04-19 |
| 公開(公告)號: | CN116432035A | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 張凱;仝春艷;崔向陽;軒占偉;黃濤;楊松 | 申請(專利權)人: | 人民網股份有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F16/9536;G06Q50/00 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲 |
| 地址: | 100026 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 構造 方法 裝置 計算 設備 存儲 介質 | ||
本發明公開了一種負樣本構造方法、裝置、計算設備及存儲介質,該方法包括:根據目標用戶的社交數據確定一批潛在曝光用戶;獲取該批潛在曝光用戶的社交狀態;若目標用戶的已發布內容被曝光給任一潛在曝光用戶且該潛在曝光用戶的社交狀態為活躍狀態,將該潛在曝光用戶標記為可信曝光用戶;根據各個可信曝光用戶的指定交互行為數據,構造第一數據集;以及,根據已發布內容的各個真實交互用戶的指定交互行為數據,構造第二數據集;對第一數據集和第二數據集求取差集數據,得到各個負樣本數據。通過上述方式,解決了在社交媒體行為預測任務中負樣本難獲得的不足,該方法簡單易行,能夠高效獲得置信度較高的負樣本數據。
技術領域
本發明涉及數據處理技術領域,具體涉及一種負樣本構造方法、裝置、計算設備及存儲介質。
背景技術
目前,網絡世界中信息量巨大,為了把更有效的信息精準推薦給作為特定個體的人,推薦系統在商業場景、內容推薦、社交媒體等場景發揮了不可估量的作用。社交媒體推薦是推薦系統中一種特殊的場景,在社交網絡中,用戶既可能是推薦內容的生產者,也可能是被推薦的對象,將推薦算法模型應用到社交媒體場景,利用模型預估用戶的社交行為。
樣本數據在算法訓練過程中有著舉足輕重的作用,為了訓練出高質量的社交媒體行為預估模型,需要對訓練數據進行精雕細琢。社交媒體行為預估本質上是二分類任務,訓練數據分為正樣本和負樣本。正樣本獲取方式相對簡單,直接獲取用戶的有效社交行為數據作為正樣本即可。但是,無法直接獲得常規推薦場景的負樣本數據,如用戶瀏覽但未有效交互的行為記錄,現有技術通常是結合先驗經驗人工構建負樣本,工作量大且精準性較低,進而會影響社交媒體行為預估模型的預估效果。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的負樣本構造方法、裝置、計算設備及存儲介質。
根據本發明的一個方面,提供了一種負樣本構造方法,包括:
根據目標用戶的社交數據確定一批潛在曝光用戶;
獲取該批潛在曝光用戶的社交狀態;
若目標用戶的已發布內容被曝光給任一潛在曝光用戶且該潛在曝光用戶的社交狀態為活躍狀態,將該潛在曝光用戶標記為可信曝光用戶;
根據各個可信曝光用戶的指定交互行為數據,構造第一數據集;以及,根據已發布內容的各個真實交互用戶的指定交互行為數據,構造第二數據集;
對第一數據集和第二數據集求取差集數據,得到各個負樣本數據。
可選地,得到負樣本數據之后,方法進一步包括:
根據各個負樣本數據與正樣本數據構建訓練集,利用訓練集對預設分類模型進行訓練,得到目標分類模型;
通過目標分類模型對各個負樣本數據進行分類,得到各個負樣本數據的分值,剔除分值不滿足預設條件的負樣本數據。
可選地,獲取至少一個潛在曝光用戶的社交狀態進一步包括:
根據任一潛在曝光用戶的預設社交行為的時間信息和/或頻次信息,獲取該潛在曝光用戶的社交狀態。
可選地,預設社交行為包括以下行為中的一項或多項:平臺登錄行為、內容發布行為、針對曝光內容的指定交互行為;
可選地,指定交互行為包括以下行為中的一項或多項:轉發行為、評論行為、點贊行為。
可選地,社交數據包括社交關系數據,根據目標用戶的社交數據確定一批潛在曝光用戶進一步包括:
根據目標用戶的社交關系數據,確定與目標用戶具有社交關系的潛在曝光用戶。
可選地,社交數據還包括:已發布內容的熱度信息,根據目標用戶的社交數據確定一批潛在曝光用戶進一步包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民網股份有限公司,未經人民網股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310423240.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種模型方案托管服務系統
- 下一篇:一種粉體物料的加料設備





