[發(fā)明專利]基于離線數(shù)據(jù)的策略評估方法及裝置有效
| 申請?zhí)枺?/td> | 201910478423.7 | 申請日: | 2019-06-03 |
| 公開(公告)號: | CN110309472B | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設(shè)計)人: | 崔鵬;鄒昊 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F17/18;G06F17/16 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 離線 數(shù)據(jù) 策略 評估 方法 裝置 | ||
1.一種基于離線數(shù)據(jù)的策略評估方法,其特征在于,所述方法應(yīng)用于在線上系統(tǒng)中提出更新的系統(tǒng)策略時,在進行線上測試之前,利用原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)離線估計待評估策略的效果的場景,所述線上系統(tǒng)包括:推薦系統(tǒng)和搜索引擎,所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)是所述推薦系統(tǒng)和所述搜索引擎的工作歷史數(shù)據(jù),所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)包括:用戶特征向量、系統(tǒng)策略施加的行為和對應(yīng)的反饋數(shù)據(jù),所述方法包括以下步驟:
S1,獲取多個行為組和待評估策略,通過估計每個行為組在所述待評估策略作用下的數(shù)據(jù)分布矩以作為目標分布矩,所述獲取多個行為組包括:將當前策略通過樣本數(shù)據(jù)產(chǎn)生的歷史數(shù)據(jù)中的各個樣本,根據(jù)所述當前策略施加的行為分為所述多個行為組;
S2,對所述每個行為組進行加權(quán),并為加權(quán)后的每個行為組施加所述待評估策略;
S3,將施加所述待評估策略后的每個行為組的矩與所述目標分布矩的差進行最小化,得到一組最小權(quán)重,根據(jù)所述最小權(quán)重計算加權(quán)平均反饋,并通過所述加權(quán)平均反饋對所述待評估策略進行評估,所述S3,進一步包括:
將所述每個行為組乘以權(quán)重和所述待評估策略施加所述每個行為組概率后的矩與所述目標分布矩的向量的歐式距離作為優(yōu)化目標,通過梯度下降的方法得到所述最小權(quán)重,將所述最小權(quán)重與所述待評估策略下所述每個行為組的概率作乘積來計算所述加權(quán)平均反饋,并通過所述加權(quán)平均反饋對所述待評估策略進行評估。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述S2,進一步包括:
對所述每個行為組的樣本加權(quán),以使所述每個行為組去除數(shù)據(jù)分布偏差后再施加所述待評估策略后的數(shù)據(jù)分布與所述樣本數(shù)據(jù)直接施加所述待評估策略后的數(shù)據(jù)分布達到矩平衡。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過估計每個行為組在所述待評估策略作用下的未來數(shù)據(jù)分布矩以作為目標分布矩,包括:
所述多個行為組在施加所述待評估策略下,所述每個行為組的概率對所述多個行為組的矩加權(quán)平均得到所述每個行為組對應(yīng)的所述目標分布矩。
4.一種基于離線數(shù)據(jù)的策略評估裝置,其特征在于,所述裝置應(yīng)用于在線上系統(tǒng)中提出更新的系統(tǒng)策略時,在進行線上測試之前,利用原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)離線估計待評估策略的效果的場景,所述線上系統(tǒng)包括:推薦系統(tǒng)和搜索引擎,所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)是所述推薦系統(tǒng)和所述搜索引擎的工作歷史數(shù)據(jù),所述原始線上系統(tǒng)產(chǎn)生的數(shù)據(jù)包括:用戶特征向量、系統(tǒng)策略施加的行為和對應(yīng)的反饋數(shù)據(jù),所述裝置包括:
獲取模塊,用于獲取多個行為組和待評估策略,通過估計每個行為組在所述待評估策略作用下的數(shù)據(jù)分布矩以作為目標分布矩,所述獲取模塊具體用于:將當前策略通過樣本數(shù)據(jù)產(chǎn)生的歷史數(shù)據(jù)中的各個樣本,根據(jù)所述當前策略施加的行為分為所述多個行為組;
處理模塊,用于對所述每個行為組進行加權(quán),并為加權(quán)后的每個行為組施加所述待評估策略;
評估模塊,用于將施加所述待評估策略后的每個行為組的矩與所述目標分布矩的差進行最小化,得到一組最小權(quán)重,根據(jù)所述最小權(quán)重計算加權(quán)平均反饋,并通過所述加權(quán)平均反饋對所述待評估策略進行評估;
所述評估模塊,具體用于,將所述每個行為組乘以權(quán)重和所述待評估策略施加所述每個行為組概率后的矩與所述目標分布矩的向量的歐式距離作為優(yōu)化目標,通過梯度下降的方法得到所述最小權(quán)重,將所述最小權(quán)重與所述待評估策略下所述每個行為組的概率作乘積來計算所述加權(quán)平均反饋,并通過所述加權(quán)平均反饋對所述待評估策略進行評估。
5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述處理模塊,具體用于,
對所述每個行為組的樣本加權(quán),以使所述每個行為組去除數(shù)據(jù)分布偏差后再施加所述待評估策略后的數(shù)據(jù)分布與所述樣本數(shù)據(jù)直接施加所述待評估策略后的數(shù)據(jù)分布達到矩平衡。
6.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述通過估計每個行為組在所述待評估策略作用下的未來數(shù)據(jù)分布矩以作為目標分布矩,包括:
所述多個行為組在施加所述待評估策略下,所述每個行為組的概率對所述多個行為組的矩加權(quán)平均得到所述每個行為組對應(yīng)的所述目標分布矩。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910478423.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)





