[發明專利]用于機器學習性能測試和改進的數據分片在審
| 申請號: | 202010434033.2 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN112070231A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | R·博瑞爾;E·法爾徹;O·拉茲;A·茲羅尼克 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06Q40/02 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 鄭宗玉 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 機器 學習 性能 測試 改進 數據 分片 | ||
1.一種方法,包括:
利用機器學習預測模型獲得表示系統的系統要求的功能模型,其中所述機器學習預測模型被配置為基于特征向量的估值來提供所估計的預測,其中所述功能模型包括屬性集合,每個屬性具有相應的值域,其中所述屬性集合包括至少一個基于元數據的屬性,所述至少一個基于元數據的屬性沒有包括在所述特征向量中;
基于所述功能模型確定數據分片集合,其中所述數據分片集合中的每個數據分片與所述功能模型的一個或多個屬性的不同估值相關聯;
獲得測試數據實例,其中每個測試數據實例包括原始數據和標簽,其中所述原始數據包括元數據;
對于每個測試數據實例,基于所述原始數據確定所述功能模型的每個屬性的值,其中所述確定值包括利用所述測試數據實例的元數據,從而將所述測試數據實例映射到一個或多個數據分片;
對于每個數據分片,計算所述機器學習預測模型在所述數據分片上的性能測度,其中所述計算基于所述機器學習預測模型在映射到所述數據分片的每個測試數據實例上的應用,從而對于每個數據分片計算不同的性能測度;以及
基于所述數據分片的性能測度確定所述機器學習預測模型是否符合目標性能要求。
2.根據權利要求1所述的方法,還包括:
獲得由用戶確定的覆蓋目標;
其中基于所述覆蓋目標來執行所述確定數據分片集合。
3.根據權利要求1所述的方法,還包括:
響應于確定數據分片的性能測度低于所述目標性能要求,確定對于所述數據分片的第二機器學習預測模型;
其中響應于獲得要估計的數據實例,
確定所述數據實例被映射到所述數據分片;以及
利用所述第二機器學習預測模型來提供對于所述數據實例的所估計的預測。
4.根據權利要求1所述的方法,其中所述功能模型還包括對所述屬性的約束集合,每個約束定義對所述功能模型的至少兩個屬性的值組合的約束;其中基于所述約束集合來執行所述確定數據分片集合,由此將每個數據分片與滿足所述約束集合的所述功能模型的所述一個或多個屬性的估值相關聯。
5.根據權利要求1所述的方法,其中所述計算包括:對于每個數據分片,確定映射到所述數據分片的測試數據實例的數量,其中響應于確定映射到數據分片的測試數據實例的數量低于預定閾值,針對所述數據分片提供負性能測度。
6.根據權利要求5所述的方法,其中響應于對所述數據分片提供負性能測度,執行以下至少一項:
添加映射到所述數據分片的測試數據實例;以及
指示無法提供對于映射到所述數據分片的數據實例的所估計的預測。
7.根據權利要求1所述的方法,其中所述確定所述功能模型的每個屬性的值包括利用所述測試數據實例的元數據來確定所述至少一個基于元數據的屬性的值,其中所述元數據不是用于所述機器學習預測模型的特征向量的估值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010434033.2/1.html,轉載請聲明來源鉆瓜專利網。





