[發明專利]針對數據缺失的數據特征挖掘方法及其相關設備在審
| 申請號: | 202011056328.7 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112199374A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 陳遠波 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458;G06F16/27;G06K9/62 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 數據 缺失 特征 挖掘 方法 及其 相關 設備 | ||
本申請屬于人工智能領域,涉及針對數據缺失的數據特征挖掘方法、裝置、計算機設備及存儲介質,所述方法包括:根據數據表生成數值化查詢表;從原始數據中獲取樣本生成第一樣本集,基于第一樣本集生成第二樣本集;根據第一樣本集和第二樣本集進行樹模型訓練和解析,根據解析結果生成第一KB模型和第二KB模型;基于數值化查詢表更新第一KB模型和第二KB模型,更新后對各樣本的數據進行處理并輸入預設的DNN模型中,輸出第一預測結果和第二預測結果進行比較,根據比較結果判定是否將存在數據缺失的特征作為目標特征。本申請還涉及區塊鏈技術,獲取的目標特征的特征值可存儲于區塊鏈中。本方案可應用于醫療數據庫的數據挖掘,推動智慧醫療的建設。
技術領域
本申請涉及人工智能技術領域,尤其涉及針對數據缺失的數據特征挖掘方法、裝置、計算機設備及存儲介質。
背景技術
在利用數據進行回歸或者分類建模時,經常碰到數據缺失的情況,造成數據缺失的原因很多,包括:
1、數據暫時無法獲取。例如在醫療數據庫中,并非所有病人的所有臨床檢驗結果都能在給定的時間內得到,致使一部分屬性值空缺。
2、數據被遺漏。例如因為輸入時認為不重要、忘記填寫或對數據理解錯誤而人為遺漏,或者由于數據采集設備的故障、存儲介質的故障、傳輸媒體的故障等原因丟失而遺漏。
3、數據中有些對象的某個或某些屬性不可用。例如未婚者的配偶姓名。
4、數據與給定語境無關,且獲取這些數據信息的代價太大。
5、系統實時性能要求較高,要求得到這些數據前迅速做出判斷或決策。
然而這些缺失的數據對模型的建立有時會有很大影響。沒有高質量的數據,就沒有高質量的分析結果。當缺失比例很小時,可直接對缺失記錄進行舍棄或進行手工處理。但在實際數據中,往往缺失數據占有相當的比重。這時如果手工處理非常低效,如果舍棄缺失記錄,則會丟失大量信息,基于這樣的數據構建模型進行分析和預測,將會得出錯誤的分析和預測結果,因此如何在數據存在缺失時確定具有穩定預測效果的特征成為亟待解決的問題。
發明內容
本申請實施例的目的在于提出一種針對數據缺失的數據特征挖掘方法、裝置、計算機設備及存儲介質,以解決現有技術中如何在數據存在缺失時確定具有穩定預測效果的特征的問題。
為了解決上述技術問題,本申請實施例提供一種針對數據缺失的數據特征挖掘方法,采用了如下所述的技術方案:
一種針對數據缺失的數據特征挖掘方法,包括下述步驟:
根據特征挖掘指令獲取數據表,將所述數據表中的特征字段名稱進行數值化處理,生成數值化查詢表;
從原始數據中獲取預設數量的樣本生成第一樣本集,基于存在數據缺失的特征對所述第一樣本集中的樣本進行剔除,生成第二樣本集;
根據所述第一樣本集和所述第二樣本集分別進行樹模型訓練,在分別得到第一樹模型和第二樹模型后進行樹模型解析,根據所述第一樹模型和所述第二樹模型的解析結果分別生成第一KB模型和第二KB模型;
基于所述數值化查詢表更新所述第一KB模型和所述第二KB模型,通過更新后的所述第一KB模型和所述第二KB模型分別對各樣本的數據進行處理;
將所述第一樣本集和所述第二樣本集中處理后的樣本數據分別輸入預設的DNN模型中,分別輸出第一預測結果和第二預測結果并進行比較,根據比較結果判定是否將所述存在數據缺失的特征作為目標特征。
為了解決上述技術問題,本申請實施例還提供一種針對數據缺失的數據特征挖掘裝置,采用了如下所述的技術方案:
一種針對數據缺失的數據特征挖掘裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011056328.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





