[發(fā)明專利]一種用于生存風(fēng)險分析的多輸出梯度提升樹建模方法有效
| 申請?zhí)枺?/td> | 201910315829.3 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110119540B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 付波;劉沛;付靈傲;鄭鴻;鄧玲;鐘曉蓉 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06Q10/04;G06Q10/06;G06N20/00 |
| 代理公司: | 電子科技大學(xué)專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 生存 風(fēng)險 分析 輸出 梯度 提升 建模 方法 | ||
本發(fā)明提供了一種用于生存風(fēng)險分析的多輸出梯度提升樹建模方法,該方法包括:首先在最優(yōu)梯度提升樹(XGBoost)的模型算法框架下,構(gòu)建用于建立金融、保險、醫(yī)療、交通或工業(yè)目標(biāo)行業(yè)生存預(yù)測模型的生存數(shù)據(jù)的表達(dá)式;然后定義并計算所述生存數(shù)據(jù)對應(yīng)的損失函數(shù);隨后定義并計算所述損失函數(shù)對應(yīng)的一階梯度和二階梯度;最后將計算出的損失函數(shù)值以及損失函數(shù)的一階梯度和二階梯度值同時輸入XGBoos模型算法框架,自動訓(xùn)練生成所述目標(biāo)行業(yè)的生存預(yù)測模型。本發(fā)明的建模方法能更好地表示模型協(xié)變量與風(fēng)險預(yù)測值之間的關(guān)系;提高模型的預(yù)測性能以及泛化能力;有更好的預(yù)測性能和風(fēng)險區(qū)分度;并且適用場景廣泛。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)生存分析和機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種用于生存風(fēng)險分析的多輸出梯度提升樹建模方法。
背景技術(shù)
生存風(fēng)險分析,在很多領(lǐng)域都有著廣泛的應(yīng)用,如金融,保險,醫(yī)療,交通,工業(yè)等。生存風(fēng)險分析(簡稱生存分析)主要是研究在觀測時間點(diǎn)發(fā)生某個特定事件的概率,進(jìn)而估計隨時間變化的風(fēng)險曲線和生存曲線。與普通的分類和回歸問題不同的是,生存風(fēng)險分析的研究目標(biāo)是在某個時間點(diǎn)發(fā)生特定事件的概率,而不僅僅只是一個目標(biāo)變量,這使得其與一般研究的分類與回歸問題有著較大不同。傳統(tǒng)的生存風(fēng)險分析方法通常以個體風(fēng)險函數(shù)為主要研究對象,并對其做出某種假設(shè),從而預(yù)測在不同時間點(diǎn)發(fā)生特定事件的概率;生存風(fēng)險分析中另外一種是研究事件首次命中時間的預(yù)測模型。這兩種傳統(tǒng)的生存風(fēng)險分析方法都對個體風(fēng)險函數(shù)做出了某種形式的假設(shè),并且設(shè)置模型參數(shù)與個體協(xié)變量之間為線性關(guān)系。在未知情況下,一旦個體風(fēng)險函數(shù)違背模型的假設(shè),那么由上述方法構(gòu)建的生存預(yù)測模型的預(yù)測性能將會大大降低。
用于建立生存預(yù)測模型的生存風(fēng)險分析方法總體可分為以下幾種:
(1)Cox比例風(fēng)險方法。Cox比例風(fēng)險方法假設(shè)觀測對象的風(fēng)險函數(shù)與人
群的基準(zhǔn)風(fēng)險函數(shù)之比是一個時不變量,且觀測對象的復(fù)發(fā)風(fēng)險與協(xié)變量之間是線性函數(shù)關(guān)系,以優(yōu)化生存數(shù)據(jù)對應(yīng)偏似然函數(shù)為目標(biāo),可以得到易于解釋的線性生存預(yù)測模型,但是該方法很大程度上限制了生存預(yù)測模型的表達(dá)能力,無法表示復(fù)發(fā)風(fēng)險與協(xié)變量之間的非線性關(guān)系。
(2)隨機(jī)生存森林方法。隨機(jī)生存森林方法來源于隨機(jī)森林,它主要用于
預(yù)測觀測對象的生存狀態(tài),完全基于生存風(fēng)險分析中生存函數(shù)和風(fēng)險函數(shù)的無參數(shù)估計方法,而不再局限于Cox比例風(fēng)險方法的假設(shè)。該方法和眾多的無參數(shù)估計方法一樣,需要大量的數(shù)據(jù)作為支撐,且容易出現(xiàn)過擬合的現(xiàn)象。
(3)梯度提升樹方法。它是一個前向加法模型,其核心思想是每輪迭代生
成新的決策樹來學(xué)習(xí)上一輪模型預(yù)測的“殘差”,最終預(yù)測結(jié)果由每一輪經(jīng)過擬合的決策樹的預(yù)測結(jié)果相加得到。用于生存風(fēng)險分析的梯度提升方法通常仍然假設(shè)觀測對象的風(fēng)險函數(shù)與人群的基準(zhǔn)風(fēng)險函數(shù)之比是一個時不變量,但是觀測對象的復(fù)發(fā)風(fēng)險與協(xié)變量之間不再局限于線性函數(shù)關(guān)系,以生存數(shù)據(jù)對應(yīng)偏似然函數(shù)作為損失函數(shù),以損失函數(shù)對上一輪模型預(yù)測值的負(fù)梯度作為“殘差”的近似值。常用的GBM梯度提升樹模型,在學(xué)習(xí)過程中,對上一輪模型預(yù)測值的“殘差”的近似不夠精確。而最優(yōu)梯度提升樹(XGBoost)梯度提升樹模型雖然采用二階近似的方法更加精確地給出了上一輪模型預(yù)測值的“殘差”,但是其損失函數(shù)對于實(shí)際的生存數(shù)據(jù)來說,偏似然函數(shù)的近似不夠精確。
實(shí)現(xiàn)基于深度學(xué)習(xí)方法的生存預(yù)測模型往往需要大量訓(xùn)練樣本,并且需要仔細(xì)調(diào)節(jié)生存預(yù)測模型的模型參數(shù),并訓(xùn)練該生存預(yù)測模型,這會耗費(fèi)大量時間。同時,復(fù)雜的生存預(yù)測模型是一個黑盒子,對臨床特征的解釋性不夠,無法用于發(fā)現(xiàn)與疾病相關(guān)的重要因子,而臨床特征解釋性在實(shí)際疾病預(yù)后研究中通常是被要求的,比如無法準(zhǔn)確評估癌癥相關(guān)的基因?qū)儆谖kU因子還是保護(hù)因子,這在一定程度上限制了它們在預(yù)后研究中的應(yīng)用。另外,也無法準(zhǔn)確描述設(shè)備的損壞時間與不同維修方式的關(guān)系等。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910315829.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 風(fēng)險監(jiān)視裝置、風(fēng)險監(jiān)視系統(tǒng)、風(fēng)險監(jiān)視方法
- 風(fēng)險控制方法及風(fēng)險控制裝置
- 風(fēng)險分層
- 風(fēng)險分層
- 風(fēng)險判定裝置、風(fēng)險判定方法以及風(fēng)險判定程序
- 風(fēng)險評價系統(tǒng)以及風(fēng)險評價方法
- 風(fēng)險管理裝置、風(fēng)險管理方法以及風(fēng)險管理程序
- 風(fēng)險測算方法和風(fēng)險測算系統(tǒng)
- 風(fēng)險評估方法及風(fēng)險評估裝置
- 風(fēng)險評估方法及風(fēng)險評估裝置





