[發明專利]更新業務預測模型的方法及裝置有效
| 申請號: | 202010819237.8 | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN111682972B | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 王世軍;朱寶成;李晨;吳明哲;詹姆士·張;褚崴;漆遠 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;G06N20/00;H04L29/08 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 更新 業務 預測 模型 方法 裝置 | ||
1.一種更新業務預測模型的方法,所述業務預測模型包括通過強化學習實現的智能體,所述方法包括:
獲取業務請求,根據所述業務請求確定環境的狀態特征;
將所述狀態特征輸入智能體,所述智能體根據第一策略參數下的策略函數,確定對應的業務響應作為當前動作;
向環境輸出所述業務響應,基于環境反饋確定當前獎勵;
根據所述狀態特征,當前動作和當前獎勵,以損失函數最小化為目標,確定更新后的第二策略參數,其中所述損失函數與第一目標項負相關,所述第一目標項包括,采用高斯混合模型GMM,將所述第二策略參數下的策略函數表示為K個高斯分布的組合的第一表達式;
用所述第二策略參數下的策略函數,更新所述智能體。
2.根據權利要求1所述的方法,其中,所述損失函數還與距離項正相關,所述距離項對應于所述第一策略參數和第二策略參數之間的距離。
3.根據權利要求2所述的方法,其中,所述距離項基于歐式距離,KL散度或J-S散度而確定。
4.根據權利要求2所述的方法,其中,所述距離項基于Wasserstein距離表達式而確定。
5.根據權利要求1所述的方法,其中,所述第一表達式包括所述K個高斯分布中各個高斯分布的分布變量和組合系數變量;
所述以損失函數最小化為目標,確定更新后的第二策略參數,包括:
在黎曼空間中,計算所述第一目標項對所述分布變量和組合系數變量的梯度;
根據所述梯度更新所述分布變量和組合系數變量;
根據更新后的組合系數變量,對具有更新后的分布變量的各個高斯分布進行組合,從而得到所述第二策略參數下的策略函數。
6.根據權利要求5所述的方法,其中,所述K個高斯分布經過參數重定義而具有0均值,所述分布變量為高斯分布的方差。
7.根據權利要求5所述的方法,其中,所述K個高斯分布包括任意的第i高斯分布,該第i高斯分布對應的所述組合系數變量,基于該第i高斯分布的權重系數與第K高斯分布的權重系數的比例而確定。
8.根據權利要求4所述的方法,其中,所述以損失函數最小化為目標,確定更新后的第二策略參數,包括:
在黎曼空間中,計算所述Wasserstein距離表達式的梯度。
9.根據權利要求1所述的方法,其中,所述業務請求來自于用戶,并包括以下之一:頁面訪問請求,支付請求,內容推送請求;所述狀態特征至少包括所述用戶的用戶特征。
10.根據權利要求1所述的方法,其中,所述業務請求為用戶對第一頁面的訪問請求;所述業務響應為以特定布局方式展示所述第一頁面;所述環境反饋為所述用戶對以所述特定布局方式展示的所述第一頁面的用戶操作行為。
11.一種更新業務預測模型的裝置,所述業務預測模型包括,通過強化學習實現的智能體,所述裝置包括:
狀態確定單元,配置為獲取業務請求,根據所述業務請求確定環境的狀態特征;
動作確定單元,配置為將所述狀態特征輸入智能體,所述智能體根據第一策略參數下的策略函數,確定對應的業務響應作為當前動作;
獎勵確定單元,配置為向環境輸出所述業務響應,基于環境反饋確定當前獎勵;
參數確定單元,配置為根據所述狀態特征,當前動作和當前獎勵,以損失函數最小化為目標,確定更新后的第二策略參數,其中所述損失函數與第一目標項負相關,所述第一目標項包括,采用高斯混合模型GMM,將所述第二策略參數下的策略函數表示為K個高斯分布的組合的第一表達式;
更新單元,配置為用所述第二策略參數下的策略函數,更新所述智能體。
12.根據權利要求11所述的裝置,其中,所述損失函數還與距離項正相關,所述距離項對應于所述第一策略參數和第二策略參數之間的距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010819237.8/1.html,轉載請聲明來源鉆瓜專利網。





