[發(fā)明專利]一種數(shù)據(jù)評估方法、裝置、終端設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201810309805.2 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108733631A | 公開(公告)日: | 2018-11-02 |
| 發(fā)明(設(shè)計)人: | 黃嚴漢;曾凡剛 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18 |
| 代理公司: | 深圳眾鼎專利商標(biāo)代理事務(wù)所(普通合伙) 44325 | 代理人: | 周燕君 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樣本數(shù)據(jù) 組合特征 準(zhǔn)確率 決策樹算法 存儲介質(zhì) 結(jié)果預(yù)測 數(shù)據(jù)評估 預(yù)設(shè)事件 終端設(shè)備 排序 數(shù)字化 預(yù)處理 邏輯回歸模型 決策樹模型 不確定性 輸入特征 樣本變量 應(yīng)用梯度 二分類 決策樹 熱編碼 預(yù)測 評估 轉(zhuǎn)化 | ||
1.一種數(shù)據(jù)評估方法,其特征在于,所述數(shù)據(jù)評估方法包括:
對樣本數(shù)據(jù)集中的樣本變量進行預(yù)處理,得到按照特征值大小排序的名義變量;
對所述名義變量進行獨熱編碼,將所述名義變量轉(zhuǎn)化為數(shù)字化變量;
對包含所述數(shù)字化變量的所述樣本數(shù)據(jù)集應(yīng)用梯度提升決策樹算法,生成包含n棵決策樹的決策樹模型;
將所述決策樹模型中每棵決策樹的路徑包含的特征作為自變量,基于二分類邏輯回歸模型,進行預(yù)設(shè)事件的結(jié)果預(yù)測。
2.如權(quán)利要求1所述的數(shù)據(jù)評估方法,其特征在于,所述對所述名義變量進行獨熱編碼,將所述名義變量轉(zhuǎn)化為數(shù)字化變量,包括:
針對所述名義變量Ai=[Ai1,Ai2,...,Aik],確定Ai的取值范圍為k個取值,其中,Aij為名義變量Ai的特征值,k為正整數(shù);
分別對特征值A(chǔ)i1,Ai2,...,Aik進行編碼,得到特征值A(chǔ)ij對應(yīng)的基礎(chǔ)數(shù)字編碼為aij=ai1ai2ai3...aij...aik,其中,aij為Aij對應(yīng)的基礎(chǔ)數(shù)字編碼,aij=1,aim=0,m∈[1,j-1]∪[j+1,k],i∈[1,n],j∈[1,k],k為正整數(shù);
將所述名義變量的特征值轉(zhuǎn)化為該特征值對應(yīng)的基礎(chǔ)數(shù)字編碼,得到所述數(shù)字化變量。
3.如權(quán)利要求1所述的數(shù)據(jù)評估方法,其特征在于,所述對包含所述數(shù)字化變量的所述樣本數(shù)據(jù)集應(yīng)用梯度提升決策樹算法,生成包含n棵決策樹的決策樹模型,包括:
基于Spark分布式計算框架,對所述樣本數(shù)據(jù)集中的數(shù)字化樣本采用分類回歸樹算法,生成原始決策樹;
將所述原始決策樹放入決策樹模型中,并將所述原始決策樹作為當(dāng)前決策樹;
基于所述樣本數(shù)據(jù)集,計算所述當(dāng)前決策樹的殘差向量;
依據(jù)所述殘差向量擬合新的決策樹,并將該新的決策樹放入所述決策樹模型中;
若所述決策樹模型中決策樹的總數(shù)低于預(yù)設(shè)閾值,則將所述新的決策樹作為所述當(dāng)前決策樹,返回基于所述樣本數(shù)據(jù)集,計算所述當(dāng)前決策樹的殘差向量的步驟繼續(xù)執(zhí)行;
若所述決策樹模型中決策樹的總數(shù)達到預(yù)設(shè)閾值,則停止擬合新的決策樹。
4.如權(quán)利要求3所述的數(shù)據(jù)評估方法,其特征在于,所述基于所述樣本數(shù)據(jù)集,計算所述當(dāng)前決策樹的殘差向量,包括:
針對每個所述數(shù)字化樣本x,按照如下公式計算所述數(shù)字化樣本x在第k個分類特征上的概率pk(x)的對數(shù)損失函數(shù):
其中,F(xiàn)k(x)為所述數(shù)字化樣本x在所述第k個分類特征上的估計值,k∈[1,K],K為預(yù)設(shè)的所述分類特征的個數(shù),yk為所述數(shù)字化樣本x在所述第k個分類特征上的分類標(biāo)識,當(dāng)所述數(shù)字化樣本x屬于所述第k個分類特征時,yk=1,否則yk=0;
對所述對數(shù)損失函數(shù)進行一階求導(dǎo),得到所述對數(shù)損失函數(shù)的負梯度,將所述負梯度作為當(dāng)前決策樹的殘差向量。
5.如權(quán)利要求1所述的數(shù)據(jù)評估方法,其特征在于,所述將決策樹模型中每棵決策樹的路徑包含的特征作為自變量,基于二分類邏輯回歸模型,進行預(yù)設(shè)事件的結(jié)果預(yù)測,包括:
將所述決策樹模型中的每棵決策樹的路徑包含的特征作為自變量,輸入到所述二分類邏輯回歸模型中,計算所述自變量的發(fā)生概率;
將所述發(fā)生概率與所述預(yù)設(shè)事件的概率閾值進行比較,若所述發(fā)生概率大于或等于所述概率閾值,則確認所述預(yù)設(shè)事件的預(yù)測結(jié)果為所述預(yù)設(shè)事件成立,若所述發(fā)生概率小于所述概率閾值,則確認所述預(yù)設(shè)事件的預(yù)測結(jié)果為所述預(yù)設(shè)事件不成立。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810309805.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 生物樣本庫應(yīng)用管理系統(tǒng)
- 一種模型訓(xùn)練方法及裝置
- 一種評價尺度穩(wěn)定的數(shù)據(jù)標(biāo)記分配、統(tǒng)計的方法及系統(tǒng)
- 情報數(shù)據(jù)處理的方法、裝置、設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)
- 一種數(shù)據(jù)融合方法及裝置
- 一種數(shù)據(jù)標(biāo)注方法、裝置、存儲介質(zhì)及電子設(shè)備
- 樣本數(shù)據(jù)預(yù)測方法、裝置和計算機可讀介質(zhì)
- 分層抽樣方法、裝置和用于分層抽樣的裝置
- 數(shù)據(jù)樣本擴充的方法、裝置和電子設(shè)備
- 一種基于決策樹優(yōu)化率的RLID3數(shù)據(jù)分類方法
- 一種基于決策樹算法的制造業(yè)材料采購分析方法
- 基于C4.5決策樹算法的特定用戶挖掘系統(tǒng)及其方法
- 一種基于互聯(lián)網(wǎng)的氣象預(yù)警方法
- 采用變量增益算法與廣度層內(nèi)增益算法的保險數(shù)據(jù)決策樹構(gòu)建方法
- 基于決策樹的航跡關(guān)聯(lián)算法
- 一種基于決策樹算法識別用電類別的方法及系統(tǒng)
- 煤礦智能化綜采工作面頂板來壓預(yù)測方法和裝置
- 一種基于并行剪枝優(yōu)化的決策樹生成方法及裝置
- 基于遺傳算法和決策樹的健康狀況預(yù)測方法





