[發明專利]一種信息推送方法、裝置、服務器及計算機可讀存儲介質在審
| 申請號: | 201811486104.2 | 申請日: | 2018-12-06 |
| 公開(公告)號: | CN109451038A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 王天駒;卞俊杰;姜飛;葉璨 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06N20/00 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;馬敬 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 推送 預設動作 強化學習 信息推送 計算機可讀存儲介質 目標用戶 服務器 推送內容 推送消息 推送信息 偏好 個性化 捕捉 反饋 輸出 放棄 申請 | ||
本申請是關于一種信息推送方法、裝置、服務器及計算機可讀存儲介質。該方法包括:當到達信息推送時間時,獲得待推送信息及待推送的目標用戶的狀態信息;將狀態信息和預設動作標識輸入至預先訓練得到的深度強化學習模型,得到每個預設動作標識對應的Q值;預設動作標識包括:推送動作的標識和放棄推送動作的標識;預設動作標識對應的Q值為:執行該預設動作標識對應的動作后所獲得的長期反饋的估計值;根據深度強化學習模型輸出的最大Q值所對應的動作,確定是否給目標用戶推送待推送消息。這樣,可以通過深度強化學習模型來捕捉用戶對推送時間和推送內容的偏好,從而實現信息的個性化推送。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種信息推送方法、裝置、服務器及計算機可讀存儲介質。
背景技術
推送服務是指服務器定向將信息實時送達用戶終端的服務。目前,推送服務的推送方式為:定時給各個用戶終端推送信息,并且,給各個用戶終端所推送的信息相同。
發明人發現,該種推送方式會給不需要推送服務的用戶造成打擾,而且給用戶推送的信息很可能是用戶不感興趣的。也就是說,該種推送方式無法實現個性化推送。
發明內容
為克服相關技術中存在的問題,本申請提供一種信息推送方法、裝置、服務器及計算機可讀存儲介質,以可以通過深度強化學習模型來捕捉用戶對推送時間和推送內容的偏好,從而實現信息的個性化推送。
根據本申請實施例的第一方面,提供一種信息推送方法,該方法包括:
當到達信息推送時間時,獲得待推送信息及待推送的目標用戶的狀態信息;狀態信息包括:目標用戶在歷史上接收到的歷史推送信息、歷史推送信息的推送時間和目標用戶對歷史推送信息的處理方式;
將狀態信息和預設動作標識輸入至預先訓練得到的深度強化學習模型,得到每個預設動作標識對應的Q值;其中,預設動作標識包括:推送動作的標識和放棄推送動作的標識;預設動作標識對應的Q值為:執行該預設動作標識對應的動作后所獲得的長期反饋的估計值;
根據深度強化學習模型輸出的最大Q值所對應的動作,確定是否給目標用戶推送待推送消息。
可選地,在本申請實施例中,深度強化學習模型包括深度Q網絡模型。
可選地,在本申請實施例中,在將狀態信息和預設動作標識輸入至預先訓練得到的深度強化學習模型的步驟之前,該方法還包括:
構建馬爾可夫決策過程模型;其中,馬爾可夫決策過程模型為:{S,A,R,T};S表示用戶的狀態信息、A表示預設動作標識、R表示獎勵函數,T表示狀態轉移函數;
基于馬爾可夫決策過程模型,獲得多個訓練樣本;其中,每個訓練樣本中包括:用戶的狀態信息、所執行的目標動作的標識、執行目標動作后所獲得的即時獎勵值、執行目標動作后狀態信息對應的下一狀態信息;目標動作為:推送動作或放棄推送動作;
利用訓練樣本對初始Q函數的參數進行優化,得到訓練后的深度Q網絡模型;參數包括:學習速率、折扣因子和Q值。
可選地,在本申請實施例中,當目標動作為放棄推送動作時,獎勵函數輸出的即時獎勵值為0;當目標動作為推送動作時,獎勵函數輸出的即時獎勵值=1.0*正向處理方式對應的取值+(-0.006)*負向處理方式對應的取值。
可選地,在本申請實施例中,正向處理方式對應的取值=1-負向處理方式對應的取值。
可選地,在本申請實施例中,用戶對推薦信息的正向處理方式包括:點擊、標注為喜歡、評論和查看時長大于預設閾值中的至少一種;用戶對推薦信息的負向處理方式包括:放棄處理和關閉推送中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811486104.2/2.html,轉載請聲明來源鉆瓜專利網。





