[發(fā)明專利]用于識別對預測器具有不利影響的數(shù)據(jù)漂移的方法和裝置在審
| 申請?zhí)枺?/td> | 202010322807.2 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111860861A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設計)人: | E·法爾基;O·拉茲;M·扎馬諾維奇 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 于靜;楊曉光 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 識別 預測 器具 不利 影響 數(shù)據(jù) 漂移 方法 裝置 | ||
1.一種方法,包括:
獲得基線數(shù)據(jù)集,其中,所述基線數(shù)據(jù)集包括第一組實例,每個實例包括在特征空間中的特征值,其中,所述第一組實例中的每個實例與標簽相關(guān)聯(lián);
基于所述第一組實例的所述特征值,在所述特征空間中確定一組集群;
確定在所述一組集群上的實例的基線分布,其中,所述確定所述基線分布是基于所述基線數(shù)據(jù)集;
針對每個集群,計算所述每個集群的預測器的性能度量,其中,所述預測器被配置為估計實例的估計標簽,其中,所述性能度量指示所述預測器對所述每個集群所包括的所述第一組實例的一部分的成功估計;
獲得第二數(shù)據(jù)集,其中,所述第二數(shù)據(jù)集包括第二組實例,其中,每個所述實例包括在所述特征空間中的特征值;
確定在所述一組集群上的實例的第二分布,其中,所述確定所述第二分布是基于所述第二數(shù)據(jù)集;以及
基于所述第二分布和所述基線分布,并且基于所述一組集群中的至少一個集群的至少一個性能度量,識別所述第二數(shù)據(jù)集相對于所述基線數(shù)據(jù)集的數(shù)據(jù)漂移。
2.根據(jù)權(quán)利要求1所述的方法,
其中,所述獲得所述第二數(shù)據(jù)集是使用硬件設備執(zhí)行的;以及
其中,所述方法進一步包括:響應于識別所述數(shù)據(jù)漂移,替換所述硬件設備。
3.根據(jù)權(quán)利要求1所述的方法,
其中,所述預測器是使用訓練數(shù)據(jù)集來訓練的,其中,所述訓練數(shù)據(jù)集包括訓練實例和所述訓練實例的標簽;
其中,所述方法還包括:
響應于識別所述數(shù)據(jù)漂移,確定新的訓練數(shù)據(jù)集,其中,所述新的訓練數(shù)據(jù)集至少包括所述第二數(shù)據(jù)集的一部分,其中,所述新的訓練數(shù)據(jù)集中的每個實例具有對應的標簽;以及
使用所述新的訓練數(shù)據(jù)集來訓練所述預測器。
4.根據(jù)權(quán)利要求1所述的方法,
其中,所述確定所述一組集群是使用第一聚類函數(shù)執(zhí)行的;
其中,所述方法還包括:
基于所述第一組實例的所述特征值,確定在所述特征空間中的第二組集群,其中,所述確定所述第二組集群是使用第二聚類函數(shù)執(zhí)行的;
確定在所述第二組集群上的實例的第二基線分布,其中,所述確定所述第二基線分布是基于所述基線數(shù)據(jù)集;
針對所述第二組集群中的每個集群,計算所述每個集群的所述預測器的所述性能度量;以及
確定在所述第二組集群上的實例的第二實際分布,其中,所述確定所述第二實際分布是基于所述第二數(shù)據(jù)集。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述識別所述數(shù)據(jù)漂移進一步基于所述第二基線分布并且基于所述第二實際分布,由此所述識別確定在所述一組集群和所述第二組集群兩者中出現(xiàn)的數(shù)據(jù)漂移,從而潛在地減小數(shù)據(jù)漂移的假陽性識別率。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述識別所述數(shù)據(jù)漂移是獨立于所述第二組集群來執(zhí)行的,由此與基于所述數(shù)據(jù)漂移出現(xiàn)在所述一組集群和所述第二組集群兩者中的識別相比,所述數(shù)據(jù)漂移被識別的概率增大。
7.根據(jù)權(quán)利要求1所述的方法,
其中,所述性能度量是從包括以下項的組中選擇的:F1評分度量,準確性度量,R平方度量,以及均方根誤差RSME度量。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述基線數(shù)據(jù)集用于測試所述預測器的預測準確性。
9.根據(jù)權(quán)利要求1所述的方法,
其中,所述第二數(shù)據(jù)集是生產(chǎn)數(shù)據(jù)集;
其中,所述預測器是使用所述基線數(shù)據(jù)集來訓練的;以及
其中,所述方法還包括:使用所述預測器來預測所述生產(chǎn)數(shù)據(jù)集所包括的實例的標簽。
10.一種具有處理器和相耦接的存儲器的計算機化裝置,所述處理器適于執(zhí)行根據(jù)權(quán)利要求1至9中任一項所述的方法。
11.一種保存程序指令的非暫時性計算機可讀介質(zhì),所述程序指令在由處理器讀取時使得所述處理器執(zhí)行根據(jù)權(quán)利要求1至9中任一項所述的方法。
12.一種系統(tǒng),所述系統(tǒng)包括分別用于執(zhí)行根據(jù)權(quán)利要求1至9中任一項所述的方法的各個步驟的模塊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010322807.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:水性化妝料
- 下一篇:光取向用液晶取向劑、液晶取向膜及液晶顯示元件





