[發明專利]一種目標用戶的選擇方法和裝置有效
| 申請號: | 201911194019.3 | 申請日: | 2019-11-28 |
| 公開(公告)號: | CN111027676B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 李晨晨;閻翔;喬俊龍;屈超;熊君武;宋樂 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06Q30/02 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 靳玫 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 目標 用戶 選擇 方法 裝置 | ||
1.一種目標用戶的選擇方法,所述方法用于由待選用戶群體中選擇部分用戶作為目標用戶,以對所述目標用戶執行目標業務操作,所述方法包括:
對于所述待選用戶群體中的每一個用戶,分別執行如下處理:將所述用戶的用戶特征輸入預先訓練的策略決定網絡,得到所述策略決定網絡預測輸出的所述目標業務操作對應的操作獎勵值,所述操作獎勵值用于表示對所述用戶執行目標業務操作后的凈提升響應預測值;
根據所述待選用戶群體中各個用戶的所述操作獎勵值,選擇所述操作獎勵值符合篩選條件的用戶作為所述目標用戶;
所述策略決定網絡,是通過強化學習方式訓練得到的深度神經網絡;
所述策略決定網絡的訓練過程包括:
獲取訓練樣本集合,所述訓練樣本集合中的每一個訓練樣本包括:樣本用戶的用戶特征、以及在對所述樣本用戶執行目標業務操作后的響應值;
分別將每個樣本用戶的用戶特征輸入待訓練的策略決定網絡,得到所述策略決定網絡預測輸出的所述樣本用戶對應的所述目標業務操作的操作獎勵值;
根據所述各個樣本用戶的操作獎勵值,由訓練樣本集合中選擇操作獎勵值符合篩選條件的多個樣本用戶作為目標樣本用戶集合,所述訓練樣本集合中的剩余用戶作為非目標樣本用戶集合;
根據所述響應值,確定所述目標樣本用戶集合和非目標樣本用戶集合之間的累積增益差異;
將所述累積增益差異作為獎賞值返回給所述策略決定網絡,并根據所述獎賞值調整所述策略決定網絡的網絡參數。
2.根據權利要求1所述的方法,所述將所述用戶的用戶特征輸入預先訓練的策略決定網絡,包括:
將所述用戶的如下至少一項用戶特征輸入預先訓練的策略決定網絡:用戶年齡、用戶性別、用戶地理位置信息或者用戶的商品購買歷史數據。
3.根據權利要求1所述的方法,所述得到所述策略決定網絡預測輸出的所述目標業務操作對應的操作獎勵值,包括:
得到所述策略決定網絡預測輸出的各個業務操作分別對應的操作獎勵值,所述各個業務操作包括所述目標業務操作和至少一個其他業務操作。
4.根據權利要求3所述的方法,所述目標業務操作用于表示對所述用戶執行營銷策略,所述其他業務操作用于表示對所述用戶不執行營銷策略。
5.根據權利要求1所述的方法,所述根據待選用戶群體中各個用戶的所述操作獎勵值,選擇操作獎勵值符合篩選條件的用戶作為所述目標用戶,包括:
將所述待選用戶群體中各個用戶分別對應的操作獎勵值進行排序;
根據排序結果選擇所述待選用戶群體中的部分用戶作為所述目標用戶。
6.根據權利要求5所述的方法,所述操作獎勵值是概率值;所述將所述待選用戶群體中各個用戶分別對應的操作獎勵值進行排序,包括:
將所述待選用戶群體中各個用戶分別對應的概率值,按照概率值由高到低的順序排序;所述概率值越高表示凈提升響應越大。
7.根據權利要求1所述的方法,所述根據所述響應值,確定所述目標樣本用戶集合和非目標樣本用戶集合之間的累積增益差異,包括:
由集合中選擇多種用戶比例的子用戶群,所述子用戶群是由目標樣本用戶集合中按照操作獎勵值選擇得到,或者由非目標樣本用戶集合中隨機選擇得到;
對于每一種所述用戶比例,將所述子用戶群中各個樣本用戶的所述響應值進行累加,得到對應所述用戶比例的累加和;以所述用戶比例作為橫坐標,以對應所述用戶比例的累加和作為縱坐標,得到對應的一個曲線樣本點;
擬合多個用戶比例對應的多個曲線樣本點,得到第一曲線和第二曲線,所述第一曲線是目標樣本用戶集合對應的多個曲線樣本點擬合得到,所述第二曲線是非目標樣本用戶集合對應的多個曲線樣本點擬合得到;
獲取所述第一曲線和第二曲線之間的包圍區域的面積,作為所述目標樣本用戶集合和非目標樣本用戶集合之間的累積增益差異。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911194019.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:交通擁堵的治理方法及裝置
- 下一篇:一種播放資源管理系統





