[發(fā)明專利]針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法及其相關(guān)設備在審
| 申請?zhí)枺?/td> | 202011056328.7 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112199374A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設計)人: | 陳遠波 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458;G06F16/27;G06K9/62 |
| 代理公司: | 深圳市世聯(lián)合知識產(chǎn)權(quán)代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對 數(shù)據(jù) 缺失 特征 挖掘 方法 及其 相關(guān) 設備 | ||
1.一種針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,包括下述步驟:
根據(jù)特征挖掘指令獲取數(shù)據(jù)表,將所述數(shù)據(jù)表中的特征字段名稱進行數(shù)值化處理,生成數(shù)值化查詢表;
從原始數(shù)據(jù)中獲取預設數(shù)量的樣本生成第一樣本集,基于存在數(shù)據(jù)缺失的特征對所述第一樣本集中的樣本進行剔除,生成第二樣本集;
根據(jù)所述第一樣本集和所述第二樣本集分別進行樹模型訓練,在分別得到第一樹模型和第二樹模型后進行樹模型解析,根據(jù)所述第一樹模型和所述第二樹模型的解析結(jié)果分別生成第一KB模型和第二KB模型;
基于所述數(shù)值化查詢表更新所述第一KB模型和所述第二KB模型,通過更新后的所述第一KB模型和所述第二KB模型分別對各樣本的數(shù)據(jù)進行處理;
將所述第一樣本集和所述第二樣本集中處理后的樣本數(shù)據(jù)分別輸入預設的DNN模型中,分別輸出第一預測結(jié)果和第二預測結(jié)果并進行比較,根據(jù)比較結(jié)果判定是否將所述存在數(shù)據(jù)缺失的特征作為目標特征。
2.根據(jù)權(quán)利要求1所述的針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,基于所述數(shù)值化查詢表更新所述第一KB模型和所述第二KB模型,通過更新后的所述第一KB模型和所述第二KB模型分別對各樣本的數(shù)據(jù)進行處理包括:
結(jié)合所述數(shù)值化查詢表,通過所述第一KB模型和所述第二KB模型分別對所述第一樣本集和所述第二樣本集中的樣本數(shù)據(jù)進行編碼處理,得到第一樣本編碼數(shù)據(jù);
根據(jù)所述第一樣本編碼數(shù)據(jù)對所述第一樹模型和所述第二樹模型的解析結(jié)果進行篩選,并基于篩選結(jié)果生成更新的第一KB模型和更新的第二KB模型;
結(jié)合所述數(shù)值化查詢表,通過所述更新的第一更新KB模型和所述更新的第二KB模型分別對所述第一樣本集和所述第二樣本集中的樣本數(shù)據(jù)進行編碼處理,得到第二樣本編碼數(shù)據(jù);
其中所述第二樣本編碼數(shù)據(jù)用作所述DNN模型的輸入。
3.根據(jù)權(quán)利要求2所述的針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,所述通過所述第一KB模型和所述第二KB模型分別對所述第一樣本集和所述第二樣本集中的樣本數(shù)據(jù)進行編碼處理包括:
對所述第一樣本集和所述第二樣本集進行拆分,生成多個第一樣本子集和多個第二樣本子集;
通過所述第一KB模型和所述第二KB模型分別對所述第一樣本子集和所述第二樣本子集中的樣本數(shù)據(jù)進行編碼處理。
4.根據(jù)權(quán)利要求1至3任一項所述的針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,所述基于存在數(shù)據(jù)缺失的特征對所述第一樣本集中的樣本進行剔除,生成第二樣本集包括:
確定存在數(shù)據(jù)缺失的多個特征,依次基于各個存在數(shù)據(jù)缺失的特征對所述第一樣本集中的樣本進行剔除,得到多個所述第二樣本集;或者
確定存在數(shù)據(jù)缺失的多個特征,將所述多個特征進行組合,得到多組特征,依次基于各組特征對所述第一樣本集中的樣本進行剔除,得到多個所述第二樣本集。
5.根據(jù)權(quán)利要求1至3任一項所述的針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,在所述根據(jù)所述第一樣本集和所述第二樣本集分別進行樹模型訓練之前,所述方法還包括:
判斷所述第二樣本集的正負樣本比例與所述第一樣本集的正負樣本比例是否一致,若不一致則調(diào)整所述第二樣本集中的正樣本或負樣本的數(shù)量,使所述第二樣本集與所述第一樣本集的正負樣本比例保持一致。
6.根據(jù)權(quán)利要求1至3任一項所述的針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,所述方法還包括獲取預設的多個時間區(qū)間;
所述根據(jù)所述第一樣本集和所述第二樣本集分別進行樹模型訓練包括:
根據(jù)所述第一樣本集和所述第二樣本集在各所述時間區(qū)間的樣本數(shù)據(jù)分別進行樹模型訓練,得到與各所述時間區(qū)間對應的多個上述第一樹模型和多個所述第二樹模型,以得到第一樹模型集和第二樹模型集。
7.根據(jù)權(quán)利要求1至3任一項所述的針對數(shù)據(jù)缺失的數(shù)據(jù)特征挖掘方法,其特征在于,當根據(jù)比較結(jié)果判定將所述存在數(shù)據(jù)缺失的特征作為目標特征時,輸出獲取所述目標特征的缺失值的提示信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011056328.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





