[發明專利]一種確定物品相似度的方法及系統有效
| 申請號: | 202111218847.3 | 申請日: | 2021-10-20 |
| 公開(公告)號: | CN113656708B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 陳宇翔;朱凱泉 | 申請(專利權)人: | 北京搜狐新媒體信息技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06Q30/06 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李慧慧 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 物品 相似 方法 系統 | ||
本發明提供了一種確定物品相似度的方法及系統,從第一數據庫中獲取多個用戶對應的第一點擊日志,第一點擊日志根據用戶的kafka消息生成;對所有第一點擊日志中的物品ID進行過濾處理,得到第二點擊日志;將所有第二點擊日志輸入預設的召回模型,利用召回模型確定相關的待處理物品之間的物品相似度。本方案中,獲取由各個用戶的kafka消息生成的第一點擊日志。對第一點擊日志中的物品ID進行數據清洗得到對應的第二點擊日志。利用預設的召回模型對所有第二點擊日志進行處理,得到相關的待處理物品之間的物品相似度。通過對物品ID進行數據清洗以減少數據的冗余,并利用召回模型確定物品之間的物品相似度,提高處理數據的速度和準確性。
技術領域
本發明涉及信息推薦技術領域,具體涉及一種確定物品相似度的方法及系統。
背景技術
隨著互聯網的發展,信息推薦業務是目前用戶應用最為廣泛的業務之一。在信息推薦業務的實際應用場景中,需通過召回模型從巨大的數據量中確定不同物品(item,例如新聞、視頻和音樂等)之間的相似度,再將所確定的不同物品之間的相似度傳回信息推薦業務以供其使用。
由于用戶數量和item數量均為百萬數量級,因此如何快速且準確的從大量數據中確定不同物品之間的相似度,是目前亟需待解決的問題。
發明內容
有鑒于此,本發明實施例提供一種確定物品相似度的方法及系統,以快速和準確的從大量數據中確定不同物品之間的相似度。
為實現上述目的,本發明實施例提供如下技術方案:
本發明實施例第一方面公開一種確定物品相似度的方法,所述方法包括:
從第一數據庫中獲取多個用戶對應的第一點擊日志,所述第一點擊日志根據所述用戶的kafka消息生成,所述第一點擊日志至少包含:所述用戶的用戶ID與所述用戶所點擊的待處理物品的物品ID之間的對應關系;
對所有所述第一點擊日志中的物品ID進行過濾處理,得到第二點擊日志;
將所有所述第二點擊日志輸入預設的召回模型,利用所述召回模型確定相關的所述待處理物品之間的物品相似度。
優選的,所述將所有所述第二點擊日志輸入預設的召回模型,利用所述召回模型確定相關的所述待處理物品之間的物品相似度,包括:
對所有所述第二點擊日志中的所述物品ID進行過濾處理和截斷處理,以及對所有所述第二點擊日志中的所述用戶ID進行過濾處理,得到第三點擊日志;
根據所述第三點擊日志,確定與其對應的所述用戶的最終點擊序列,所述最終點擊序列包括:所述用戶的用戶ID,所述用戶所點擊的待處理物品的物品ID;
針對每個所述第三點擊日志對應的所述用戶,利用所述用戶的所述最終點擊序列確定相應的物品對,所述物品對用于指示被同一用戶點擊過的一對所述待處理物品的物品ID;
利用所有所述物品對,對所有所述第三點擊日志對應的所述用戶的用戶ID進行聚合,確定每一所述物品對的共同用戶;
將所有所述物品對的共同用戶進行窮舉處理,得到多個用戶對,所述用戶對用于指示點擊過相同所述待處理物品的一對所述用戶的用戶ID;
確定每個所述用戶對所共有的所述物品對;
利用每個所述用戶對所共有的所述物品對,計算得到每個所述用戶對的用戶相似度;
利用每個所述用戶對的用戶相似度,計算所述物品對所對應的所述待處理物品之間的物品相似度。
優選的,所述對所有所述第二點擊日志中的所述物品ID進行過濾處理和截斷處理,以及對所有所述第二點擊日志中的所述用戶ID進行過濾處理,得到第三點擊日志,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狐新媒體信息技術有限公司,未經北京搜狐新媒體信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111218847.3/2.html,轉載請聲明來源鉆瓜專利網。





