[發明專利]數據表填補方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201910001784.2 | 申請日: | 2019-01-02 |
| 公開(公告)號: | CN109783788A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 蔡健;楊鐳;黃北辰;郭凌峰;付曉 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F16/2458 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 李文淵 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 填補 計算機設備 存儲介質 缺失類型 數據處理技術 數據分析 用戶上傳 準確度 相關度 申請 | ||
1.一種數據表填補方法,所述方法包括:
獲取用戶上傳的數據表;
確定所述數據表中的非完全字段名,所述非完全字段名缺少數據值;
根據所述非完全字段名與所述數據表中其它字段名之間的相關度確定所述非完全字段名的缺失類型;
根據所述數據表中已有的數據值,根據所述缺失類型對應的填補方式計算缺失值;
根據所述缺失值填補所述非完全字段名缺失的數據值。
2.根據權利要求1所述的方法,其特征在于,所述根據所述非完全字段名與所述數據表中其它字段名之間的相關度確定所述非完全字段名的缺失類型包括:
當所述非完全字段名與所述數據表中其它字段名之間的相關度均小于第一預設值時,則確定所述非完全字段名的缺失類型為完全隨機缺失;
當所述非完全字段名與所述數據表中至少一個完全字段名之間的相關度大于第二預設值時,則確定所述非完全字段名的缺失類型為隨機缺失;
當所述非完全字段名與所述數據表中至少一個非完全字段名之間的相關度大于第三預設值時,則確定所述非完全字段名的缺失類型為非隨機缺失。
3.根據權利要求1所述的方法,其特征在于,所述缺失類型為完全隨機缺失;所述根據所述數據表中已有的數據值,根據所述缺失類型對應的填補方式計算缺失值包括:
當所述非完全字段名對應的數據值類型為字符型時,則根據所述非完全字段名已有的數據值統計相應的中位數,將統計的所述中位數作為所述非完全字段名對應的缺失值;或,根據所述非完全字段名已有的數據值統計相應的眾數,將統計的所述眾數作為所述非完全字段名對應的缺失值;
當所述非完全字段名對應的數據值類型為數值型時,則根據所述非完全字段名已有的數據值統計相應的平均數,將統計的所述平均數作為所述非完全字段名對應的缺失值。
4.根據權利要求1所述的方法,其特征在于,所述缺失類型為完全隨機缺失;所述根據所述數據表中已有的數據值,根據所述缺失類型對應的填補方式計算缺失值包括:
確定所述數據表中缺失了所述非完全字段名對應的數據值的第一類樣本;
確定所述數據表中所述非完全字段名對應的數據值存在的第二類樣本;
統計所述第一類樣本的樣本數量;
計算所述樣本數量占所述樣本總數的比例;
當所述比例大于閾值時,則將所述第一類樣本在所述非完全字段名下的數據值替換為第一值;將所述第二類樣本在所述非完全字段名下的數據值替換為第二值。
5.根據權利要求1所述的方法,其特征在于,所述缺失類型為隨機缺失;所述根據所述數據表中已有的數據值,根據所述缺失類型對應的填補方式計算缺失值包括:
確定與所述非完全字段名相關的完全字段名;
按照所述完全字段名的數據值對所述數據表中的樣本進行聚類,得到聚類簇;
確定所述數據表中缺失了所述非完全字段名對應的數據值的第三類樣本;
計算所述第三類樣本所屬的聚類簇所包括樣本在所述非完全字段名下的均值,將計算得到的均值作為待填補的缺失值。
6.根據權利要求1所述的方法,其特征在于,所述缺失類型為隨機缺失;所述根據所述數據表中已有的數據值,根據所述缺失類型對應的填補方式計算缺失值包括:
確定所述數據表中所述非完全字段名對應的數據值存在的第一樣本集合以及所述非完全字段名對應的數據值缺失的第二樣本集合;
根據所述第一樣本集合中與所述非完全字段名相關的完全字段名對應的數據值構建預測模型;
將所述第二樣本集合中各個樣本在所述完全字段名對應的數據值輸入至所述預測模型中,通過所述預測模型輸出所述第二樣本集合中各個樣本在所述非完全字段名下的預測值;
將所述預測值作為待填補的缺失值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910001784.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種結構化文檔的生成方法、裝置及存儲介質
- 下一篇:一種電子文書制作系統





