[發明專利]數據處理方法和數據處理裝置在審
| 申請號: | 202110872899.6 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113569969A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 鄭子皓;武靖宇 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 王兆賡;蘇銀虹 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
本公開關于一種數據處理方法和數據處理裝置。所述數據處理方法包括:對抽取的樣本子集中的每個樣本子集進行第一預設組樣本子集和第二預設組樣本子集的匹配,以獲取多個第一預設組匹配樣本子集,其中,每個所述樣本子集均包括所述第一預設組樣本子集和所述第二預設組樣本子集;獲取每個匹配樣本子集的數據處理結果,其中,每個所述匹配樣本子集均包括所述第一預設組匹配樣本子集和所述第二預設組樣本子集;基于每個所述匹配樣本子集的數據處理結果,得到最終數據處理結果。所述數據處理方法和數據處理裝置每次只需要抽取部分樣本,減少了異常值對于整體分布的影響,使得匹配和數據處理結果更加穩健,并且可以采取分布式運算方法降低時間復雜度。
技術領域
本公開涉及數據處理領域,更具體地說,涉及一種用于AB實驗的數據處理方法和數據處理裝置。
背景技術
AB實驗作為一種常見的隨機控制實驗(Randomized Controlled Trial),經常用于評估新提出的模式、方案或者算法。然而,傳統的AB實驗經常受限于隨機分組誤差、樣本分布偏度、離群異常值分布,使得樣本分布的平衡性在實驗前得不到保證,從而影響后續統計推斷的準確性和穩健性。例如,在商業數據分析中,客戶側AB實驗在評估對于消耗(cost)、預算(budget)、收入(GMV)的影響時,由于個體樣本差異,經常使得A組(對照組)與B組(實驗組)在實驗開始之前的分布不均勻。
發明內容
本公開提供一種數據處理方法和數據處理裝置,以至少解決上述相關技術中的問題,也可不解決任何上述問題。
根據本公開的實施例的第一方面,提供一種數據處理方法,包括:對抽取的樣本子集中的每個樣本子集進行第一預設組樣本子集和第二預設組樣本子集的匹配,以獲取多個目標預設組匹配樣本子集,其中,每個所述樣本子集均包括所述第一預設組樣本子集和所述第二預設組樣本子集;獲取每個匹配樣本子集的數據處理結果,其中,每個所述匹配樣本子集均包括所述目標預設組匹配樣本子集和所述第二預設組樣本子集;基于每個所述匹配樣本子集的數據處理結果,得到最終數據處理結果。
可選地,所述方法還可包括:通過自展法對預定整體樣本集進行抽樣得到所述抽取的樣本子集。
可選地,所述通過自展法對預定整體樣本集進行抽樣得到所述抽取的樣本子集,可包括:通過自展法對預定整體樣本集中所包括的第一預設組樣本和第二預設組樣本分別進行抽樣,以獲取多個所述第一預設組樣本子集和多個所述第二預設組樣本子集,然后將多個所述第一預設組樣本子集和多個所述第二預設組樣本子集一一對應地進行組合。
可選地,所述對抽取的樣本子集中的每個樣本子集進行第一預設組樣本子集和第二預設組樣本子集的匹配,以獲取多個目標預設組匹配樣本子集,可包括:通過應用傾向得分匹配法,對所述抽取的樣本子集中的每個樣本子集進行第一預設組樣本子集和第二預設組樣本子集的匹配,以獲取多個目標預設組匹配樣本子集。
可選地,所述基于每個所述匹配樣本子集的數據處理結果,得到最終數據處理結果,可包括:通過針對每個所述匹配樣本子集的數據處理結果執行取平均處理來獲得所述最終數據處理結果,其中,所述匹配樣本子集的數據處理結果包括所述匹配樣本子集的效應量和顯著性水平量。
可選地,所述基于每個所述匹配樣本子集的數據處理結果,得到最終數據處理結果,可包括:通過針對每個所述匹配樣本子集的數據處理結果執行假設檢驗,將假設檢驗的檢驗結果作為所述最終數據處理結果,其中,所述匹配樣本子集的數據處理結果包括所述匹配樣本子集的效應量和顯著性水平量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110872899.6/2.html,轉載請聲明來源鉆瓜專利網。





