[發明專利]利用博弈論更新推薦模型的方法及裝置有效
| 申請號: | 202010968311.2 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112149824B | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 李輝;宋樂;王維強;王寧濤;金宏 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 博弈論 更新 推薦 模型 方法 裝置 | ||
本說明書實施例提供一種更新推薦模型的方法和裝置,其中推薦模型包括通過強化學習實現的智能體。方法包括:獲取針對目標用戶的當前推薦狀態,將其輸入智能體,智能體根據推薦策略,從備選動作集中確定針對目標用戶的推薦動作。其中,推薦策略通過策略參數進行表征。然后,確定在執行上述推薦動作的情況下,按照推薦策略進行推薦的期望收益,作為第一收益;確定在推薦策略下,執行所有備選動作的預期平均收益,作為第二收益;并且,基于第一收益與第二收益的差值,確定執行推薦動作的遺憾度表示。根據上述遺憾度表示,確定對策略參數的更新梯度;于是根據更新梯度,更新智能體中的推薦策略。
技術領域
本說明書一個或多個實施例涉及機器學習領域,尤其涉及在強化學習中利用博弈論更新推薦模型的方法和裝置。
背景技術
機器學習的迅猛發展使得各種機器學習的模型在各種各樣的業務場景得到應用。相較于機器學習經典的有監督學習、無監督學習,近來發展的強化學習最大的特點和優勢,是通過跟環境的不斷交互、互相影響來進行策略調整,根據獲得的獎勵或懲罰不斷的自我學習,更加適應環境。因此,強化學習模型尤其適合于涉及交互的業務場景,例如,向用戶推送內容的推薦場景。
然而,在已有的強化學習模型中,往往會對環境有很強的假設要求。例如,假設環境中的所有狀態和信息對于涉及的各方均是完全觀察到的。這樣的假設對現實場景的要求過于嚴苛,使得其適用性受到限制。
因此,希望能有改進的方案,可以針對通過強化學習實現的推薦模型進行更高效的更新,使其更好適用于真實場景。
發明內容
本說明書一個或多個實施例描述了一種利用博弈論更新推薦模型的方法和裝置,在智能體策略更新過程中,利用多方博弈理論中的遺憾最小化原理,進行策略的更新,從而得到更加適用于非完全信息場景的推薦策略。
根據第一方面,提供了一種更新推薦模型的方法,所述推薦模型包括通過強化學習實現的智能體,所述方法包括:
獲取針對目標用戶的當前推薦狀態;
將所述當前推薦狀態輸入智能體,所述智能體根據推薦策略,從備選動作集中確定針對所述目標用戶的推薦動作;所述推薦策略通過策略參數進行表征;
確定在執行所述推薦動作的情況下,按照所述推薦策略進行推薦的期望收益,作為第一收益;以及,確定在所述推薦策略下,執行所述備選動作集中所有備選動作的預期平均收益,作為第二收益;并且,基于所述第一收益與第二收益的差值,確定執行所述推薦動作的遺憾度表示;
根據所述遺憾度表示,確定對策略參數的更新梯度;
根據所述更新梯度,更新所述推薦策略,從而更新所述智能體。
根據一種實施方式,上述當前推薦狀態包括,目標用戶的歷史推薦特征,所述歷史推薦特征包括以下中的至少一項:已推薦內容列表,已接受內容列表。
進一步的,在一個實施例中,當前推薦狀態還包括,所述目標用戶的用戶屬性特征和用戶行為特征;所述用戶行為特征包括,在所述當前推薦狀態之前預定時段的操作行為記錄。
在一個實施例中,上述推薦動作可以包括,推薦內容和推薦方式。
根據一種實施方式,所述智能體包括演員-評論家架構下的演員神經網絡和評論家神經網絡。在這樣的情況下,可通過以下方式確定第一收益:將所述當前推薦狀態和推薦動作輸入所述評論家神經網絡,通過所述評論家神經網絡的輸出擬合所述第一收益。
根據一個實施例,確定第二收益的步驟具體包括:對于所述備選動作集中的任一備選動作,確定在所述推薦策略下執行該備選動作的概率,以及確定在執行所述備選動作情況下的期望收益;將所述概率和期望收益的乘積,作為該備選動作對應的折合收益;對所述備選動作集中所有備選動作對應的折合收益求和,得到所述第二收益。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010968311.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種橡膠成型機
- 下一篇:一種用于冰箱內膽斜面的沖孔設備





