[發明專利]一種對象排序方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 201910754266.8 | 申請日: | 2019-08-15 |
| 公開(公告)號: | CN110599238A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 董健;王永康 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06N20/00 |
| 代理公司: | 11319 北京潤澤恒知識產權代理有限公司 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獎賞 排序 成本參數 電子設備 權重系數 訓練過程 狀態特征 迭代 可讀存儲介質 對象排序 獲取系統 模型應用 目標對象 排序過程 排序結果 強化學習 停止條件 一次迭代 應用過程 預設參數 預設條件 中平臺 商戶 運算 收益 平衡 | ||
本公開提供了一種對象排序方法、裝置、電子設備及可讀存儲介質,包括:通過電子設備執行訓練過程和排序應用過程;其中,訓練過程中的一次迭代過程包括:獲取系統當前的狀態特征以及上一次迭代的獎賞值;在獎賞值未滿足訓練停止條件時,調整強化學習模型中的預設參數并對系統當前的特征進行運算得到當前的第一權重系數;基于第一權重系數與當前狀態特征得到目標對象的排序分值;根據排序分值對各個對象進行排序;獲取在相應排序結果下系統的成交總額和成交成本參數;基于成交總額和成交成本參數計算本次迭代的獎賞值;在獎賞值滿足預設條件時停止訓練。并將得到的模型應用在排序過程。解決了現有技術中平臺收益和商戶利益不能平衡的問題。
技術領域
本公開涉及推薦技術領域,特別是涉及一種對象排序方法、一種對象排序裝置、電子設備及可讀存儲介質。
背景技術
在廣告投放領域,為了在廣告中體現商戶和廣告投放平臺的收益權衡,通常采用線性融合的方式來確定廣告投放過程中多個收益特征的平衡效果。
現有技術中,通常通過平臺收益、商戶利益是廣告平臺的優化目標,二者通過線性加權的方式,收益權重值構成排序公式,來確定平衡關系。
但是,由于收益權重值往往固定不變,廣告是實際收益值和商戶利益值確實靈活變動,所以收益權重值不能正確體現平臺收益、商戶利益之間的關系。
發明內容
根據本公開的第一方面,本公開實施例公開了一種對象排序方法,
通過電子設備執行訓練過程和排序應用過程;
所述訓練過程包括多次迭代過程;
一次迭代過程包括:
獲取系統當前的狀態特征以及上一次迭代的獎賞值;
若所述獎賞值未滿足訓練停止條件,則停止訓練;
若所述獎賞值未滿足訓練停止條件,調整強化學習模型中的預設參數,并根據調整后的模型對系統當前的特征進行運算得到當前的第一權重系數;
基于所述第一權重系數與當前訂單點擊率、訂單轉化率的乘積得到目標對象的排序分值;
基于各個對象的排序分值對各個對象進行排序;
獲取在相應排序結果下系統的成交總額和成交成本參數;
基于成交總額和成交成本參數計算本次迭代的獎賞值;
所述排序應用過程包括:
獲取系統當前的狀態特征;
基于訓練好的強化學習模型對所述特征進行運算得到第一權重系數;
基于所述第一權重系數與當前訂單點擊率、訂單轉化率的乘積得到目標對象的排序分值;
基于各個對象的排序分值對各個對象進行排序。
根據本公開的第二方面,本公開實施例公開了一種對象排序裝置,具體包括:
通過電子設備運行訓練模塊和排序應用模塊;
所述訓練模塊,用于執行多次迭代過程;
一次迭代過程包括:
獎賞值獲取模塊,用于獲取系統當前的狀態特征以及上一次迭代的獎賞值;
停止模塊,用于若所述獎賞值未滿足訓練停止條件,則停止訓練;
第一權重系數得到模塊,用于若所述獎賞值未滿足訓練停止條件,調整強化學習模型中的預設參數,并根據調整后的模型對系統當前的特征進行運算得到當前的第一權重系數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910754266.8/2.html,轉載請聲明來源鉆瓜專利網。





