[發(fā)明專利]基于強化學習的推薦方法及裝置有效
| 申請?zhí)枺?/td> | 202010655207.8 | 申請日: | 2020-07-09 |
| 公開(公告)號: | CN111651679B | 公開(公告)日: | 2023-07-11 |
| 發(fā)明(設(shè)計)人: | 張祺深 | 申請(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06Q30/0251;G06Q30/0241;G06N3/092;G06N5/01 |
| 代理公司: | 北京永新同創(chuàng)知識產(chǎn)權(quán)代理有限公司 11376 | 代理人: | 林錦輝;劉景峰 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強化 學習 推薦 方法 裝置 | ||
本說明書實施例提供了一種基于強化學習的推薦方法及裝置。在該推薦方法中,響應(yīng)于用戶針對連續(xù)推薦場景的推薦請求,按照以下方式為用戶進行連續(xù)推薦,直至結(jié)束推薦:獲取用戶的當前狀態(tài)信息;使用推薦模型和當前狀態(tài)信息并根據(jù)強化學習算法來確定下一批推薦內(nèi)容;以及向用戶推送所述下一批推薦內(nèi)容,其中,下一批推薦內(nèi)容作為連續(xù)推薦中的下一推薦過程的當前推薦內(nèi)容,其中,強化學習算法的動作序列包括基于用戶反饋行為的推薦內(nèi)容序列,強化學習算法的環(huán)境狀態(tài)包括用戶的狀態(tài)信息,強化學習算法的回報包括基于用戶反饋行為的業(yè)務(wù)反饋信息。
技術(shù)領(lǐng)域
本說明書實施例涉及機器學習技術(shù)領(lǐng)域,具體地,涉及一種基于強化學習的推薦方法及裝置。
背景技術(shù)
網(wǎng)絡(luò)的普及給用戶帶來了大量的信息,滿足了用戶對信息的需求,但隨著網(wǎng)絡(luò)上信息的大幅增長,對于用戶來說,這些信息中可能僅有小部分是需要的信息,很難從大量的信息中獲取到所需的信息,這樣就導(dǎo)致了信息超載的問題。為了解決信息超載的問題,推薦系統(tǒng)應(yīng)運而生,推薦系統(tǒng)可以根據(jù)用戶的需求給用戶推薦感興趣的信息、商品等。
推薦系統(tǒng)已應(yīng)用于電子商務(wù)、影視推薦、音樂電臺推薦、社交網(wǎng)絡(luò)、個性化閱讀、個性化廣告等領(lǐng)域中。推薦系統(tǒng)可以分為一次性推薦和連續(xù)推薦,在一次性推薦中,用戶每請求一次推薦系統(tǒng)僅推薦一次,比如,當用戶點擊喜歡的電影時,推薦系統(tǒng)會為該用戶推薦一組(比如10部)類似的電影。在連續(xù)推薦中,推薦系統(tǒng)自動地為用戶進行連續(xù)推薦,比如用戶閱覽下滑頁面時,用戶連續(xù)地下滑的同時推薦系統(tǒng)連續(xù)地在下滑頁面中展示推薦內(nèi)容。
發(fā)明內(nèi)容
鑒于上述,本說明書實施例提供了一種基于強化學習的推薦方法及裝置。該推薦方法用于連續(xù)推薦場景,在連續(xù)推薦的每個推薦過程中,首先獲取用戶的當前狀態(tài)信息,然后使用推薦模型和當前狀態(tài)信息并根據(jù)強化學習算法來確定下一批推薦內(nèi)容,所確定的下一批推薦內(nèi)容即為下一推薦過程的當前推薦內(nèi)容。上述基于強化學習的推薦方法所確定的下一批推薦內(nèi)容除了用戶的當前狀態(tài)信息的因素以外,還考慮了連續(xù)推薦過程中動作序列的影響因素,使得所確定的下一推薦內(nèi)容的累積回報最大,進而達到更佳的推薦效果。
根據(jù)本說明書實施例的一個方面,提供了一種基于強化學習的推薦方法,包括:響應(yīng)于用戶針對連續(xù)推薦場景的推薦請求,按照以下方式為所述用戶進行連續(xù)推薦,直至結(jié)束推薦:獲取所述用戶的當前狀態(tài)信息;使用推薦模型和所述當前狀態(tài)信息并根據(jù)強化學習算法來確定下一批推薦內(nèi)容;以及向所述用戶推送所述下一批推薦內(nèi)容,其中,所述下一批推薦內(nèi)容作為所述連續(xù)推薦中的下一推薦過程的當前推薦內(nèi)容,其中,所述強化學習算法的動作序列包括基于用戶反饋行為的推薦內(nèi)容序列,所述強化學習算法的環(huán)境狀態(tài)包括所述用戶的狀態(tài)信息,所述強化學習算法的回報包括基于用戶反饋行為的業(yè)務(wù)反饋信息。
可選地,在上述方面的一個示例中,獲取所述用戶的當前狀態(tài)信息包括:在所述連續(xù)推薦中的首次推薦時,獲取所述用戶的用戶特征信息和/或歷史行為狀態(tài)信息。
可選地,在上述方面的一個示例中,獲取所述用戶的當前狀態(tài)信息包括:在所述連續(xù)推薦中的非首次推薦時,獲取當前推薦內(nèi)容;以及基于所述當前推薦內(nèi)容,獲取所述用戶的當前狀態(tài)信息,其中,所述當前狀態(tài)信息包括行為狀態(tài)信息,所述行為狀態(tài)信息表征的用戶行為狀態(tài)是針對所述當前推薦內(nèi)容的用戶反饋行為導(dǎo)致的。
可選地,在上述方面的一個示例中,所述當前狀態(tài)信息還包括所述用戶的用戶特征信息和/或歷史行為狀態(tài)信息。
可選地,在上述方面的一個示例中,所述行為狀態(tài)信息包括點擊查看行為狀態(tài)信息、購買行為狀態(tài)信息、瀏覽行為狀態(tài)信息和收藏行為狀態(tài)信息中的至少一種。
可選地,在上述方面的一個示例中,所述業(yè)務(wù)反饋信息包括針對推薦內(nèi)容的點擊量信息、購買金額信息和瀏覽時長信息中的至少一種。
可選地,在上述方面的一個示例中,還包括:利用所述當前狀態(tài)信息和當前推薦內(nèi)容對所述推薦模型進行更新,以使得更新后的推薦模型應(yīng)用于所述連續(xù)推薦中的下一推薦過程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010655207.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





