[發(fā)明專利]基于離線數(shù)據(jù)的策略評估方法及裝置有效

申請?zhí)枺?/td>	201910478423.7	申請日：	2019-06-03
公開（公告）號：	CN110309472B	公開（公告）日：	2022-04-29
發(fā)明（設(shè)計）人：	崔鵬;鄒昊	申請（專利權(quán)）人：	清華大學(xué)
主分類號：	G06F16/958	分類號：	G06F16/958;G06F17/18;G06F17/16
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	張潤
地址：	10008***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于離線數(shù)據(jù) 策略評估方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于離線數(shù)據(jù)的策略評估方法，其特征在于，所述方法應(yīng)用于在線上系統(tǒng)中提出更新的系統(tǒng)策略時，在進行線上測試之前，利用原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)離線估計待評估策略的效果的場景，所述線上系統(tǒng)包括：推薦系統(tǒng)和搜索引擎，所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)是所述推薦系統(tǒng)和所述搜索引擎的工作歷史數(shù)據(jù)，所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)包括：用戶特征向量、系統(tǒng)策略施加的行為和對應(yīng)的反饋數(shù)據(jù)，所述方法包括以下步驟：

S1，獲取多個行為組和待評估策略，通過估計每個行為組在所述待評估策略作用下的數(shù)據(jù)分布矩以作為目標分布矩，所述獲取多個行為組包括：將當前策略通過樣本數(shù)據(jù)產(chǎn)生的歷史數(shù)據(jù)中的各個樣本，根據(jù)所述當前策略施加的行為分為所述多個行為組；

S2，對所述每個行為組進行加權(quán)，并為加權(quán)后的每個行為組施加所述待評估策略；

S3，將施加所述待評估策略后的每個行為組的矩與所述目標分布矩的差進行最小化，得到一組最小權(quán)重，根據(jù)所述最小權(quán)重計算加權(quán)平均反饋，并通過所述加權(quán)平均反饋對所述待評估策略進行評估，所述S3，進一步包括：

將所述每個行為組乘以權(quán)重和所述待評估策略施加所述每個行為組概率后的矩與所述目標分布矩的向量的歐式距離作為優(yōu)化目標，通過梯度下降的方法得到所述最小權(quán)重，將所述最小權(quán)重與所述待評估策略下所述每個行為組的概率作乘積來計算所述加權(quán)平均反饋，并通過所述加權(quán)平均反饋對所述待評估策略進行評估。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述S2，進一步包括：

對所述每個行為組的樣本加權(quán)，以使所述每個行為組去除數(shù)據(jù)分布偏差后再施加所述待評估策略后的數(shù)據(jù)分布與所述樣本數(shù)據(jù)直接施加所述待評估策略后的數(shù)據(jù)分布達到矩平衡。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過估計每個行為組在所述待評估策略作用下的未來數(shù)據(jù)分布矩以作為目標分布矩，包括：

所述多個行為組在施加所述待評估策略下，所述每個行為組的概率對所述多個行為組的矩加權(quán)平均得到所述每個行為組對應(yīng)的所述目標分布矩。

4.一種基于離線數(shù)據(jù)的策略評估裝置，其特征在于，所述裝置應(yīng)用于在線上系統(tǒng)中提出更新的系統(tǒng)策略時，在進行線上測試之前，利用原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)離線估計待評估策略的效果的場景，所述線上系統(tǒng)包括：推薦系統(tǒng)和搜索引擎，所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)是所述推薦系統(tǒng)和所述搜索引擎的工作歷史數(shù)據(jù)，所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)包括：用戶特征向量、系統(tǒng)策略施加的行為和對應(yīng)的反饋數(shù)據(jù)，所述裝置包括：

獲取模塊，用于獲取多個行為組和待評估策略，通過估計每個行為組在所述待評估策略作用下的數(shù)據(jù)分布矩以作為目標分布矩，所述獲取模塊具體用于：將當前策略通過樣本數(shù)據(jù)產(chǎn)生的歷史數(shù)據(jù)中的各個樣本，根據(jù)所述當前策略施加的行為分為所述多個行為組；

處理模塊，用于對所述每個行為組進行加權(quán)，并為加權(quán)后的每個行為組施加所述待評估策略；

評估模塊，用于將施加所述待評估策略后的每個行為組的矩與所述目標分布矩的差進行最小化，得到一組最小權(quán)重，根據(jù)所述最小權(quán)重計算加權(quán)平均反饋，并通過所述加權(quán)平均反饋對所述待評估策略進行評估；

所述評估模塊，具體用于，將所述每個行為組乘以權(quán)重和所述待評估策略施加所述每個行為組概率后的矩與所述目標分布矩的向量的歐式距離作為優(yōu)化目標，通過梯度下降的方法得到所述最小權(quán)重，將所述最小權(quán)重與所述待評估策略下所述每個行為組的概率作乘積來計算所述加權(quán)平均反饋，并通過所述加權(quán)平均反饋對所述待評估策略進行評估。

5.根據(jù)權(quán)利要求4所述的裝置，其特征在于，所述處理模塊，具體用于，

6.根據(jù)權(quán)利要求4所述的裝置，其特征在于，所述通過估計每個行為組在所述待評估策略作用下的未來數(shù)據(jù)分布矩以作為目標分布矩，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)，未經(jīng)清華大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910478423.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】