[發明專利]一種基于消除位置與用戶偏差的召回算法的離線評估方法在審
| 申請號: | 202011387570.2 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112381618A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 韓弘煬;傅劍文;陳心童;章建森 | 申請(專利權)人: | 天翼電子商務有限公司 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 102200 北京市昌平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 消除 位置 用戶 偏差 召回 算法 離線 評估 方法 | ||
1.一種基于消除位置與用戶偏差的召回算法的離線評估方法,其特征在于,包括以下步驟:
S1.歷史行為生成與存儲:
對于用戶每日曝光與點擊的數據使用前端埋點進行記錄,使用kafka對數據進行實時獲取,并將數據存于hive表中;
S2.新召回算法離線結果生成與存儲:
讀取hive表中歷史行為數據,使用SQL與python文件對數據進行清洗、處理、建模獲取新召回算法結果,并將結果存于hive表中;
S3.用戶j歷史信息生成:
讀取近T日用戶曝光數據,生成用戶j在T日內物品展示頁曝光次數Nj、最大曝光位置MaxPj以及各展位i的曝光權重pij并將結果存于hive表中;其中曝光權重pij等于用戶j在歷史行為中位置i的曝光率,例如用戶近T日進入展示頁100次,第4展示位被曝光99次,即該位曝光率為99%;
S4.今日在線信息生成:
讀取今日在線曝光、點擊數據,生成今日在線點擊量M以及在線用戶數Uall=count(distinct展示用戶)并將結果存于hive表中;
S5.用戶在線數據與離線召回數據匹配結果生成:
使用hive將用戶今日在線曝光、點擊數據與新召回算法離線找回數據按圖1的形式進行關聯匹配,將結果存于hive表中;
S6.匹配用戶量生成:
計算步驟5中在線曝光物品與召回物品有重合的用戶數Upair;
S7.用戶j匹配信息生成:
定義示性函數Iij,若用戶j第i個離線召回候選品與在線展示候選集重合匹配則為1,否則為0;計算用戶j重合匹配點擊量Cj,即圖1中重合匹配的藍色候選品的個數;
S8.用戶j點擊期望估計:
創新的點擊期望預估公式既消除了位置的偏置又對未匹配重合的候選品進行了估計;對于排序靠后的候選品給予較低的曝光權重,同時結合重合候選集中的點擊量來估計未曾被展示的候選品的點擊效果;
S9.所有用戶點擊期望估計:
創新的整體點擊期望預估公式
不同的用戶每日會有不同的頁面訪問次數以及不同程度的瀏覽(有的僅瀏覽一屏有的瀏覽多屏),利用匹配用戶信息與所有用戶信息給予不同用戶不同的權重來消除用戶偏置,得到未匹配用戶的點擊量估計,從而得到整體的點擊期望預估;
S10.效果評估:
比較期望點擊量Ep與真實點擊量M;若Ep>δM則表明新增召回算法較為有效,可以進行上線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天翼電子商務有限公司,未經天翼電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387570.2/1.html,轉載請聲明來源鉆瓜專利網。





