[發明專利]一種面向收益提升的無偏學習排序方法有效
| 申請號: | 202011491942.6 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112612951B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 張偉楠;戴心儀;侯嘉偉;西云佳;俞勇 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06N20/00 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 收益 提升 學習 排序 方法 | ||
1.一種面向收益提升的無偏機器學習排序方法,其特征在于,基于有偏的用戶行為數據,建模一個無偏的機器學習排序模型,直接面向收益提升進行優化;
所述無偏的機器學習排序模型包括一個位置敏感的點擊率預估模型,以及一個排序打分函數;
其學習過程分兩步進行:
第一步,學習所述位置敏感的點擊率預估模型來得到目標效益的無偏估計;
第二步,基于上一步得到的無偏估計的變化量使用成對損失函數學習所述排序打分函數;
包括如下步驟:
步驟1、從和用戶的交互中,得到用戶的點擊日志;
步驟2、根據具體的應用場景,定義目標效益的形式;所述目標效益的形式包括點擊率/購買率的加權求和形式;
步驟3、從所述點擊日志中隨機抽取Sc個點擊數據,訓練所述基于位置敏感的點擊率預估模型gθ(fi,ki);
步驟4、基于所述點擊日志和所述基于位置敏感的點擊率預估模型gθ(fi,ki),得到每條查詢上所述目標效益的無偏估計;
步驟5、開始所述排序打分函數的學習,首先隨機初始化所述排序打分函數si=Φ(fi);
步驟6、根據當前所述排序打分函數進行排序,得到每個查詢下的排序列表;
步驟7、隨機挑選Sr對來自同一個查詢下的文檔對,計算交換這對樣本之后,目標效益估計的差值;
步驟8、根據每對樣本的所述目標效益估計的差值,更新所述排序打分函數Φ(fi);
步驟9、重復步驟6-8,直至所述排序打分函數收斂。
2.如權利要求1所述的方法,其特征在于,所述步驟1中,所述點擊日志表示為集合其中Q表示所有查詢的集合,nq表示當前查詢下文檔的數目,i和q分別表示文檔和查詢的下標,每一條包括以下信息:bi表示效益權重,ki表示位置,表示是否點擊,fi表示特征,fi包括查詢特征fq、文檔特征fd、上下文特征fc。
3.如權利要求2所述的方法,其特征在于,所述步驟2中,所述目標效益被定義為在一個固定的查詢集合中,每個查詢上排序列表上物品點擊的加權期望和,具體的,每個查詢上的所述目標效益被定義為:
其中表示物品i被放在當前位置上的點擊率,bi表示每個物品對應的效益相關權重。
4.如權利要求3所述的方法,其特征在于,所述步驟3中,優化以下損失函數直至收斂;
其中l(p,q)=-plogq-(1-p)log(1-q)為交叉熵損失。
5.如權利要求4所述的方法,其特征在于,所述步驟4中,所述目標效益的無偏估計計算公式為:
其中ki和分別表示物品i在當前排序下的位置和在點擊日志中的位置;
該式的無偏性可以由以下的推導證明,
6.如權利要求5所述的方法,其特征在于,所述步驟7中,所述目標效益估計的差值的計算公式為:
ΔUtil(i,j)=u(i,kj)+u(j,ki)-u(i,ki)-u(j,kj);
其中,u(i,ki)表示物品i被放在位置ki的效益,具體地,
7.如權利要求6所述的方法,其特征在于,所述步驟8中,更新的目標來自于以所述目標效益估計的差值為權重的pairwise損失函數:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011491942.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:石墨烯電池空調暖通設備
- 下一篇:一種軌跡生成方法、裝置、設備及存儲介質





