[發(fā)明專利]對測試樣本中的缺失屬性值進行預(yù)測的方法及裝置有效
| 申請?zhí)枺?/td> | 201910818641.0 | 申請日: | 2019-08-30 |
| 公開(公告)號: | CN110647519B | 公開(公告)日: | 2023-10-03 |
| 發(fā)明(設(shè)計)人: | 高呈琳 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F18/22;G06F18/15;G06F18/21;G06V10/72;G06V10/776 |
| 代理公司: | 深圳市聯(lián)鼎知識產(chǎn)權(quán)代理有限公司 44232 | 代理人: | 魏學(xué)昊 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路503*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 測試 樣本 中的 缺失 屬性 進行 預(yù)測 方法 裝置 | ||
1.一種對測試樣本中的缺失屬性值進行預(yù)測的方法,其特征在于,包括:
針對缺失特定的目標屬性的屬性值的缺失測試樣本,分別獲取所述缺失測試樣本的所述目標屬性以外的屬性的屬性值對應(yīng)的向量,并將所述向量按照所述缺失測試樣本中所述目標屬性以外的屬性的順序連成第一向量串;
針對未缺失屬性值的每個非缺失測試樣本,分別獲取所述缺失測試樣本的所述目標屬性以外的屬性的屬性值對應(yīng)的向量,并將所述向量按照該非缺失測試樣本中所述目標屬性以外的屬性的順序連成第二向量串;
計算每個所述非缺失測試樣本的所述第二向量串和所述缺失測試樣本的所述第一向量串的歐式距離;
確定所述歐式距離符合預(yù)定條件的非缺失測試樣本;
基于歐式距離符合預(yù)定條件的非缺失測試樣本中的目標屬性的屬性值,預(yù)測測試樣本中的缺失屬性值;
將預(yù)測到的所述測試樣本中的缺失屬性值作為所述缺失測試樣本的所述目標屬性的屬性值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述歐式距離符合預(yù)定條件的非缺失測試樣本,包括:
確定所述歐式距離最小的非缺失測試樣本;
所述基于歐式距離符合預(yù)定條件的非缺失測試樣本中的目標屬性的屬性值,預(yù)測測試樣本中的缺失屬性值,包括:
將歐式距離最小的非缺失測試樣本中的目標屬性的屬性值,作為預(yù)測的測試樣本中的缺失屬性值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述歐式距離符合預(yù)定條件的非缺失測試樣本,包括:
確定所述歐式距離小于預(yù)定歐式距離閾值的非缺失測試樣本;
所述基于歐式距離符合預(yù)定條件的非缺失測試樣本中的目標屬性的屬性值,預(yù)測測試樣本中的缺失屬性值,包括:
如果目標屬性是數(shù)值型,將所述歐式距離小于預(yù)定歐式距離閾值的非缺失測試樣本中的目標屬性的屬性值的平均值,作為預(yù)測的測試樣本中的缺失屬性值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述歐式距離符合預(yù)定條件的非缺失測試樣本,包括:
確定所述歐式距離小于預(yù)定歐式距離閾值的非缺失測試樣本;
所述基于歐式距離符合預(yù)定條件的非缺失測試樣本中的目標屬性的屬性值,預(yù)測測試樣本中的缺失屬性值,包括:
如果目標屬性是字符型,將所述歐式距離小于預(yù)定歐式距離閾值的非缺失測試樣本中出現(xiàn)次數(shù)最多的目標屬性的屬性值,作為預(yù)測的測試樣本中的缺失屬性值。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算每個所述非缺失測試樣本的所述第二向量串和所述缺失測試樣本的所述第一向量串的歐式距離,包括:
獲取所述缺失測試樣本的所述第一向量串中向量的個數(shù)相對于每個所述非缺失測試樣本的所述第二向量串中的向量的個數(shù)差;
當所述個數(shù)差為負數(shù)時,為所述缺失測試樣本的所述第一向量串中添加補位向量后,得到補位后第一向量串;
計算每個所述非缺失測試樣本的所述第二向量串和所述缺失測試樣本的補位后第一向量串的歐式距離。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算每個所述非缺失測試樣本的所述第二向量串和所述缺失測試樣本的所述第一向量串的歐式距離,包括:
獲取所述缺失測試樣本的所述第一向量串中向量的個數(shù)相對于每個所述非缺失測試樣本的所述第二向量串中的向量的個數(shù)差;
當所述個數(shù)差為正數(shù)時,為所述非缺失測試樣本的所述第二向量串中添加補位向量后,得到補位后第二向量串;
計算每個所述非缺失測試樣本的所述補位后第二向量串和所述缺失測試樣本的第一向量串的歐式距離。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述當所述個數(shù)差為負數(shù)時,為所述缺失測試樣本的所述第一向量串中添加補位向量后,得到補位后第一向量串,包括:
所述當所述個數(shù)差為負數(shù)時,在所述第一向量串的結(jié)尾,為所述缺失測試樣本的所述第一向量串中添加所述個數(shù)差個補位向量后,得到補位后第一向量串。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910818641.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





