[發(fā)明專利]一種基于消除位置與用戶偏差的召回算法的離線評(píng)估方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011387570.2 | 申請(qǐng)日: | 2020-12-02 |
| 公開(kāi)(公告)號(hào): | CN112381618A | 公開(kāi)(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 韓弘煬;傅劍文;陳心童;章建森 | 申請(qǐng)(專利權(quán))人: | 天翼電子商務(wù)有限公司 |
| 主分類號(hào): | G06Q30/06 | 分類號(hào): | G06Q30/06 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 102200 北京市昌平*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 消除 位置 用戶 偏差 召回 算法 離線 評(píng)估 方法 | ||
本發(fā)明公開(kāi)了一種基于消除位置與用戶偏差的召回算法的離線評(píng)估方法,包括以下步驟:S1.歷史行為生成與存儲(chǔ);S2.新召回算法離線結(jié)果生成與存儲(chǔ);S3.用戶j歷史信息生成;S4.今日在線信息生成;S5.用戶在線數(shù)據(jù)與離線召回?cái)?shù)據(jù)匹配結(jié)果生成;S6.匹配用戶量生成;S7.用戶j匹配信息生成;S8.用戶j點(diǎn)擊期望估計(jì);S9.所有用戶點(diǎn)擊期望估計(jì)和S10.效果評(píng)估。本發(fā)明提出了一種新型的推薦系統(tǒng)召回算法評(píng)估方式,在消除位置偏置以及用戶偏置的基礎(chǔ)上對(duì)新生成的召回算法效果進(jìn)行評(píng)價(jià),并能夠離線估計(jì)該召回算法得到的用戶在線上從未被展示的新候選品(新穎性召回)上線后的點(diǎn)擊情況,從而能夠更為精準(zhǔn)、有效、科學(xué)地評(píng)估推薦系統(tǒng)中新生成的召回算法。
技術(shù)領(lǐng)域
本發(fā)明涉及推薦系統(tǒng)領(lǐng)域,特別涉及一種基于消除位置與用戶偏差的召回算法的離線評(píng)估方法。
背景技術(shù)
召回是推薦系統(tǒng)流程中必不可少的步驟,它通過(guò)算法從成千上萬(wàn)的候選集中初步篩選出一小部分候選品。其篩選程度的優(yōu)劣將直接影響最終推薦系統(tǒng)的效果。
在眾多召回算法中,對(duì)于每個(gè)用戶或多或少會(huì)有一些新物料的召回結(jié)果,而這些候選品與在線推薦的候選品不重復(fù)。針對(duì)此類評(píng)價(jià)場(chǎng)景,目前推薦系統(tǒng)中常用的AUC、nDCG等離線指標(biāo)可能會(huì)低估算法的效果,而通過(guò)小流量上線對(duì)其效果進(jìn)行評(píng)估,不僅可能影響線上整體效果,降低用戶體驗(yàn),還增加了額外的人工配置調(diào)整策略的成本。此外,候選品在線展示的位置以及展示的用戶對(duì)其效果也有一定影響,目前在推薦系統(tǒng)中評(píng)估召回效果時(shí)并未考慮召回算法的候選品順序以及推薦用戶的影響。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是克服現(xiàn)有技術(shù)的缺陷,提供一種基于消除位置與用戶偏差的召回算法的離線評(píng)估方法。
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了如下的技術(shù)方案:
本發(fā)明提供一種基于消除位置與用戶偏差的召回算法的離線評(píng)估方法,包括以下步驟:
S1.歷史行為生成與存儲(chǔ):
對(duì)于用戶每日曝光與點(diǎn)擊的數(shù)據(jù)使用前端埋點(diǎn)進(jìn)行記錄,使用kafka對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)獲取,并將數(shù)據(jù)存于hive表中;
S2.新召回算法離線結(jié)果生成與存儲(chǔ):
讀取hive表中歷史行為數(shù)據(jù),使用SQL與python文件對(duì)數(shù)據(jù)進(jìn)行清洗、處理、建模獲取新召回算法結(jié)果,并將結(jié)果存于hive表中;
S3.用戶j歷史信息生成:
讀取近T日用戶曝光數(shù)據(jù),生成用戶j在T日內(nèi)物品展示頁(yè)曝光次數(shù)Nj、最大曝光位置MaxPj以及各展位i的曝光權(quán)重pij并將結(jié)果存于hive表中;其中曝光權(quán)重pij等于用戶j在歷史行為中位置i的曝光率,例如用戶近T日進(jìn)入展示頁(yè)100次,第4展示位被曝光99次,即該位曝光率為99%;
S4.今日在線信息生成:
讀取今日在線曝光、點(diǎn)擊數(shù)據(jù),生成今日在線點(diǎn)擊量M以及在線用戶數(shù)Uall=count(distinct展示用戶)并將結(jié)果存于hive表中;
S5.用戶在線數(shù)據(jù)與離線召回?cái)?shù)據(jù)匹配結(jié)果生成:
使用hive將用戶今日在線曝光、點(diǎn)擊數(shù)據(jù)與新召回算法離線找回?cái)?shù)據(jù)按圖1的形式進(jìn)行關(guān)聯(lián)匹配,將結(jié)果存于hive表中;
S6.匹配用戶量生成:
計(jì)算步驟5中在線曝光物品與召回物品有重合的用戶數(shù)Upair;
S7.用戶j匹配信息生成:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天翼電子商務(wù)有限公司,未經(jīng)天翼電子商務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387570.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q30-00 商業(yè),例如購(gòu)物或電子商務(wù)
G06Q30-02 .行銷,例如,市場(chǎng)研究與分析、調(diào)查、促銷、廣告、買方剖析研究、客戶管理或獎(jiǎng)勵(lì);價(jià)格評(píng)估或確定
G06Q30-04 .簽單或開(kāi)發(fā)票
G06Q30-06 .購(gòu)買、出售或租賃交易
G06Q30-08 ..拍賣
- 位置檢測(cè)裝置、位置檢測(cè)電路及位置檢測(cè)方法
- 位置估計(jì)設(shè)備、位置估計(jì)方法、以及位置估計(jì)系統(tǒng)
- 位置檢測(cè)裝置、位置檢測(cè)方法及位置檢測(cè)程序
- 位置辨識(shí)裝置、位置辨識(shí)系統(tǒng)以及位置辨識(shí)方法
- 位置指示器、位置檢測(cè)裝置、位置檢測(cè)電路以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)系統(tǒng)以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)系統(tǒng)以及位置檢測(cè)方法
- 位置檢測(cè)裝置、位置檢測(cè)方法以及位置檢測(cè)系統(tǒng)
- 位置估計(jì)方法、位置估計(jì)裝置、以及位置估計(jì)系統(tǒng)
- 位置檢測(cè)方法、位置檢測(cè)裝置以及位置檢測(cè)系統(tǒng)





