[發明專利]一種對象排序方法、裝置、電子設備及可讀存儲介質在審

申請號：	201910754266.8	申請日：	2019-08-15
公開（公告）號：	CN110599238A	公開（公告）日：	2019-12-20
發明（設計）人：	董健;王永康	申請（專利權）人：	北京三快在線科技有限公司
主分類號：	G06Q30/02	分類號：	G06Q30/02;G06N20/00
代理公司：	11319 北京潤澤恒知識產權代理有限公司	代理人：	任亞娟
地址：	100083 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	獎賞排序成本參數電子設備權重系數訓練過程狀態特征迭代可讀存儲介質對象排序獲取系統模型應用目標對象排序過程排序結果強化學習停止條件一次迭代應用過程預設參數預設條件中平臺商戶運算收益平衡
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種對象排序方法、裝置、電子設備及可讀存儲介質，包括：通過電子設備執行訓練過程和排序應用過程；其中，訓練過程中的一次迭代過程包括：獲取系統當前的狀態特征以及上一次迭代的獎賞值；在獎賞值未滿足訓練停止條件時，調整強化學習模型中的預設參數并對系統當前的特征進行運算得到當前的第一權重系數；基于第一權重系數與當前狀態特征得到目標對象的排序分值；根據排序分值對各個對象進行排序；獲取在相應排序結果下系統的成交總額和成交成本參數；基于成交總額和成交成本參數計算本次迭代的獎賞值；在獎賞值滿足預設條件時停止訓練。并將得到的模型應用在排序過程。解決了現有技術中平臺收益和商戶利益不能平衡的問題。

技術領域

本公開涉及推薦技術領域，特別是涉及一種對象排序方法、一種對象排序裝置、電子設備及可讀存儲介質。

背景技術

在廣告投放領域，為了在廣告中體現商戶和廣告投放平臺的收益權衡，通常采用線性融合的方式來確定廣告投放過程中多個收益特征的平衡效果。

現有技術中，通常通過平臺收益、商戶利益是廣告平臺的優化目標，二者通過線性加權的方式，收益權重值構成排序公式，來確定平衡關系。

但是，由于收益權重值往往固定不變，廣告是實際收益值和商戶利益值確實靈活變動，所以收益權重值不能正確體現平臺收益、商戶利益之間的關系。

發明內容

根據本公開的第一方面，本公開實施例公開了一種對象排序方法，

通過電子設備執行訓練過程和排序應用過程；

所述訓練過程包括多次迭代過程；

一次迭代過程包括：

獲取系統當前的狀態特征以及上一次迭代的獎賞值；