[發(fā)明專利]基于離線數(shù)據(jù)的策略評估方法及裝置有效
| 申請?zhí)枺?/td> | 201910478423.7 | 申請日: | 2019-06-03 |
| 公開(公告)號: | CN110309472B | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設(shè)計)人: | 崔鵬;鄒昊 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F17/18;G06F17/16 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 離線 數(shù)據(jù) 策略 評估 方法 裝置 | ||
本發(fā)明公開了一種基于離線數(shù)據(jù)的策略評估方法及裝置,其中,該方法包括:獲取多個行為組和待評估策略,通過估計每個行為組在待評估策略作用下的數(shù)據(jù)分布矩以作為目標分布矩;對每個行為組進行加權(quán),并為加權(quán)后的每個行為組施加待評估策略;將施加待評估策略后的每個行為組的矩與目標分布矩的差進行最小化,得到一組最小權(quán)重,根據(jù)最小權(quán)重計算加權(quán)平均反饋,并通過加權(quán)平均反饋對待評估策略進行評估。該方法引入因果推斷領(lǐng)域的變量平衡方法,通過對樣本直接加權(quán)去除原始策略帶來的數(shù)據(jù)分布偏差,用矩的差值來刻畫分布的差異,解決了對模型假設(shè)的依賴問題。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種基于離線數(shù)據(jù)的策略評估方法及裝置。
背景技術(shù)
基于離線數(shù)據(jù)的策略評估是應(yīng)用于各類線上系統(tǒng),如推薦系統(tǒng)、搜索引擎等,在迭代更新系統(tǒng)時利用原始系統(tǒng)的工作歷史數(shù)據(jù)(包括樣本的特征,策略施加的行為以及相應(yīng)反饋)評估新策略的未來效果(策略在樣本總體上的平均作用反饋),以解決在線A/B測試方法周期長、成本高的問題。原始的離線評估方法主要是直接方法回歸反饋函數(shù)或者對數(shù)據(jù)基于傾向性指數(shù)的加權(quán)去除偏差兩類思路。而兩類方法都要求有正確的關(guān)于反饋函數(shù)或者傾向性指數(shù)的模型假設(shè)。另外,基于傾向性指數(shù)的方法在去除原始策略帶來的數(shù)據(jù)分布偏差時,沒有考慮到新策略對數(shù)據(jù)分布引入的變化。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個目的在于提出一種基于離線數(shù)據(jù)的策略評估方法,該方法引入因果推斷領(lǐng)域的變量平衡方法,通過對樣本直接加權(quán)去除原始策略帶來的數(shù)據(jù)分布偏差,用矩的差值來刻畫分布的差異,解決了對模型假設(shè)的依賴問題。
本發(fā)明的另一個目的在于提出一種基于離線數(shù)據(jù)的策略評估裝置。
為達到上述目的,本發(fā)明一方面實施例提出了一種基于離線數(shù)據(jù)的策略評估方法,包括:獲取多個行為組和待評估策略,通過估計每個行為組在所述待評估策略作用下的數(shù)據(jù)分布矩以作為目標分布矩;對所述每個行為組進行加權(quán),并為加權(quán)后的每個行為組施加所述待評估策略;將施加所述待評估策略后的每個行為組的矩與所述目標分布矩的差進行最小化,得到一組最小權(quán)重,根據(jù)所述最小權(quán)重計算加權(quán)平均反饋,并通過所述加權(quán)平均反饋對所述待評估策略進行評估。
本發(fā)明實施例的基于離線數(shù)據(jù)的策略評估方法,基于變量平衡的策略評估,引入因果推斷領(lǐng)域的變量平衡方法,通過對樣本直接加權(quán)來去除數(shù)據(jù)中原始策略帶來的數(shù)據(jù)分布偏差,使得歷史數(shù)據(jù)中各個行為組(被施加相同行為的樣本集合)加權(quán)去除偏差后再施加新策略引入變化的數(shù)據(jù)分布與原始數(shù)據(jù)(未引入偏差的樣本總體)施加新策略引入變化后的數(shù)據(jù)分布達到矩平衡。對歷史數(shù)據(jù)中的所有樣本反饋,根據(jù)去除偏差的權(quán)重和新策略施加所屬行為組的行為的概率的乘積進行加權(quán)平均,得到新策略的估計效果。
另外,根據(jù)本發(fā)明上述實施例的基于離線數(shù)據(jù)的策略評估方法還可以具有以下附加的技術(shù)特征:
進一步地,在本發(fā)明的一個實施例中,將當(dāng)前策略通過樣本數(shù)據(jù)產(chǎn)生的歷史數(shù)據(jù)中的各個樣本,根據(jù)所述當(dāng)前策略施加的行為分為所述多個行為組。
進一步地,在本發(fā)明的一個實施例中,所述S2,進一步包括:
對所述每個行為組的樣本加權(quán),以使所述每個行為組去除數(shù)據(jù)分布偏差后再施加所述待評估策略后的數(shù)據(jù)分布與所述樣本數(shù)據(jù)直接施加所述待評估策略后的數(shù)據(jù)分布達到矩平衡。
進一步地,在本發(fā)明的一個實施例中,所述S3,進一步包括:
將所述每個行為組乘以權(quán)重和所述待評估策略施加所述每個行為組概率后的矩與所述目標分布矩的向量的歐式距離作為優(yōu)化目標,通過梯度下降的方法得到所述最小權(quán)重,將所述最小權(quán)重與所述待評估策略下所述每個行為組的概率作乘積來計算所述加權(quán)平均反饋,并通過所述加權(quán)平均反饋對所述待評估策略進行評估。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910478423.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)





