[發明專利]一種基于強化學習的實時競價廣告資源分配方法在審
| 申請號: | 202011062131.4 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112163886A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 張程偉;鄭康潔;靳珊 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06N3/04;G06N3/08 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 陳麗;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 實時 競價 廣告 資源 分配 方法 | ||
1.一種基于強化學習的實時競價廣告資源分配方法,其特征在于,包括:
步驟1:對歷史廣告數據進行統計分析,得到廣告點擊率;
步驟2:將得到的點擊率進行加噪處理,得出廣告交易平臺和所述需求方平臺對點擊率的估值;
步驟3:按照不同等級預算限制將實時競價廣告印象分配問題建模為一組多級的馬爾科夫決策過程集合,每個分級中,在預算約束下,需求方平臺根據所述點擊率的估值進行出價;每個分級中的廣告狀態維度一致,對需要進行折算的變量進行折算;并將折算后的變量輸入到對應等級的深度Q網絡中;
步驟4:獲取每個深度Q網絡計算出的累積回報值;
步驟5:對每個深度Q網絡得到的累積回報值進行歸一化,使得尺度相同,通過對應的修正函數進行修正;
步驟6:將所有修正后的回報值進行加權,根據得到的累積回報值確定不同動作下的廣告資源分配策略,從所述廣告資源分配策略中選擇最優的廣告分配策略;所述動作為在多個需求方平臺的出價中選擇一個所述需求方平臺作為獲勝者。
2.根據權利要求1所述的方法,其特征在于,重復上述步驟1~6,直到廣告拍賣終止態。
3.根據權利要求1所述的方法,其特征在于,需要進行折算的變量至少包括:剩余預算與剩余步長;
所述剩余預算按照如下公式折算:
所述剩余步長按照如下公式折算:
其中,l為當前層數,tl為第l層對剩余步長t的折算,Bl,t為第l層對剩余預算B的折算,βl為第l層的折算比例,step為步。
4.根據權利要求1所述的方法,其特征在于,所有修正后的回報值加權后的估計值Q(s,a)為:
其中,為第l層修正后的回報值,l為當前層數,ωl為第l層的修正因子,L為模型的總層數;φl(s)為狀態觀測值,s包括:1)t:每輪競拍中剩余的步長;2)(B1,…,BJ):每個需求方平臺的剩余預算;3)(b1,…,bJ):每個需求方平臺對廣告印象的出價;4)i:第i種用戶特征;5)將用戶特征i展示給每個需求方平臺時,廣告印象的性價比;6)將用戶特征i展示給每個需求方平臺時,廣告交易平臺對點擊率的估計;a為智能體從多個需求方平臺選擇出的競拍獲勝的需求方平臺,a′為下一個獲勝的需求方平臺。
5.根據權利要求1所述的方法,其特征在于,各級DQN的權重按照如下方式確定:其中,ω0為超參數,0<ω0<1。
6.根據權利要求4所述的方法,其特征在于,所述對歷史廣告數據進行統計分析,得到廣告點擊率包括:通過推薦系統的方法對歷史廣告數據進行統計分析,得到廣告點擊率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011062131.4/1.html,轉載請聲明來源鉆瓜專利網。





