[發(fā)明專利]一種基于XGBoost的眼屈光矯正多源數(shù)據(jù)自動(dòng)分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010234736.0 | 申請(qǐng)日: | 2020-03-30 |
| 公開(kāi)(公告)號(hào): | CN111414972B | 公開(kāi)(公告)日: | 2023-09-05 |
| 發(fā)明(設(shè)計(jì))人: | 王雁;馬嬌楠;孟祥冰 | 申請(qǐng)(專利權(quán))人: | 王雁 |
| 主分類號(hào): | G06F18/214 | 分類號(hào): | G06F18/214;G06F18/2415;G06F18/243;G06N20/00;G16H20/40;G16H50/70 |
| 代理公司: | 天津盛理知識(shí)產(chǎn)權(quán)代理有限公司 12209 | 代理人: | 陳娟 |
| 地址: | 300020*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 xgboost 眼屈光 矯正 數(shù)據(jù) 自動(dòng) 分類 方法 | ||
本發(fā)明涉及一種基于XGBoost的眼屈光矯正多源數(shù)據(jù)自動(dòng)分類方法,利用眼科醫(yī)生的臨床經(jīng)驗(yàn)與統(tǒng)計(jì)策略相結(jié)合的方案,挑選出與眼屈光數(shù)據(jù)分類相關(guān)的屬性特征作為訓(xùn)練所用的最原始的特征;基于篩選之后的數(shù)據(jù),利用XGBoost算法按照其特征重要性進(jìn)一步進(jìn)行特征篩選,選取與目標(biāo)最為相關(guān)的相關(guān)屬性特征;基于選取的訓(xùn)練樣本,考慮樣本不均衡的問(wèn)題給予每個(gè)樣本以不同權(quán)重以及避免訓(xùn)練過(guò)擬合設(shè)置相應(yīng)的早停函數(shù),訓(xùn)練XGBoost模型用以對(duì)樣本進(jìn)行分類。本發(fā)明可有效提高基于多源數(shù)據(jù)分類的準(zhǔn)確性,并在訓(xùn)練過(guò)程中不需要人工干預(yù),縮短了訓(xùn)練時(shí)間,提高了訓(xùn)練效率。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)算法應(yīng)用于醫(yī)學(xué)數(shù)據(jù)處理領(lǐng)域,涉及機(jī)器學(xué)習(xí)技術(shù),尤其涉及一種利用基于XGBoost模型的集成學(xué)習(xí)方法對(duì)眼科的角膜屈光矯正多源數(shù)據(jù)進(jìn)行自動(dòng)分類的算法方案。
背景技術(shù)
近視已成為全世界導(dǎo)致視力損害的首要因素,不僅成為全球關(guān)注的焦點(diǎn)醫(yī)學(xué)問(wèn)題之一,也是一項(xiàng)重要社會(huì)問(wèn)題。每年都有大量人群存在近視矯正的需求,因此需要尋求安全有效精準(zhǔn)的矯正方法。目前角膜屈光手術(shù)是青年人群矯正近視的主要手段,中國(guó)每年接受屈光手術(shù)的人群已逾百萬(wàn)。角膜屈光手術(shù)包括多種手術(shù)方式,不同方式的選擇是基于對(duì)多源臨床數(shù)據(jù)分析后的分類,其對(duì)于屈光狀態(tài)的診斷、屈光不正矯正方案的合理制定起著至關(guān)重要的作用。目前眼屈光矯正的多源數(shù)據(jù)主要包括患者的人口學(xué)資料、眼病史、眼屈光度數(shù)及角膜的形態(tài)學(xué)等,其存在多種來(lái)源、數(shù)據(jù)類型不統(tǒng)一、分類指征交叉、數(shù)據(jù)存在缺失值等特征,在傳統(tǒng)的臨床數(shù)據(jù)分析中,此工作往往依賴于醫(yī)生的主觀經(jīng)驗(yàn),導(dǎo)致角膜屈光手術(shù)的決策和選擇上存在模糊性;此外,數(shù)據(jù)分類的有效性也受到患者個(gè)體差異及醫(yī)生臨床經(jīng)驗(yàn)的不同的影響。因此,設(shè)計(jì)針對(duì)眼屈光矯正多源數(shù)據(jù)的自動(dòng)分析分類算法是解決上述問(wèn)題的最佳方式。
當(dāng)前這些多源數(shù)據(jù)的分類是根據(jù)每種屈光矯正方式的臨床特征進(jìn)行傳統(tǒng)的統(tǒng)計(jì)分析并結(jié)合醫(yī)生經(jīng)驗(yàn)進(jìn)行的。傳統(tǒng)的統(tǒng)計(jì)分析方案,能夠分析單變量對(duì)于分類的影響,但是當(dāng)多源多變量間存在耦合時(shí),往往很難對(duì)變量進(jìn)行拆分;另外,基于臨床醫(yī)生的數(shù)據(jù)分類又受到人為主觀臨床經(jīng)驗(yàn)的影響,均會(huì)導(dǎo)致數(shù)據(jù)分類的錯(cuò)誤。此外,傳統(tǒng)的分類方案很難分析納入潛在的影響因素,例如角膜生物力學(xué)特性相關(guān)數(shù)據(jù)并未被傳統(tǒng)的分類方案考慮,而本發(fā)明的方案分析顯示此數(shù)據(jù)對(duì)分類結(jié)果也有較大影響。
隨著現(xiàn)在屈光矯正數(shù)據(jù)量的不斷積累,以數(shù)據(jù)為驅(qū)動(dòng)的機(jī)器學(xué)習(xí)技術(shù),為眼屈光矯正多源數(shù)據(jù)分析分類提供了新的方向。因此本發(fā)明提供了一種高效、準(zhǔn)確的基于XGBoost的眼屈光矯正多源數(shù)據(jù)的自動(dòng)分類方法,能夠自動(dòng)分析多變量對(duì)分類的影響,并且可以允許數(shù)據(jù)中存在一定的數(shù)據(jù)缺失,由于模型訓(xùn)練過(guò)程將有效特征全部納入進(jìn)行訓(xùn)練分析,因此可同時(shí)分析發(fā)現(xiàn)潛在的重要特征。應(yīng)用這一方案的難點(diǎn)在于:各數(shù)據(jù)類型的樣本量嚴(yán)重不均衡,且數(shù)據(jù)類型包含字符、數(shù)字等各種類型需要進(jìn)行統(tǒng)一;訓(xùn)練模型過(guò)程中earlystopping策略需采用臨床上醫(yī)生關(guān)心的指標(biāo)進(jìn)行衡量。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足之處,提供一種基于XGBoost的機(jī)器學(xué)習(xí)模型對(duì)眼屈光矯正多源數(shù)據(jù)進(jìn)行自動(dòng)分類的方案,該自動(dòng)分類方案能夠應(yīng)用于醫(yī)學(xué)多源數(shù)據(jù)的自動(dòng)分類,并為臨床醫(yī)生綜合分析臨床多源數(shù)據(jù)間的復(fù)雜關(guān)系提供了參考和輔助。
本發(fā)明解決技術(shù)問(wèn)題所采用的技術(shù)方案是:
一種基于XGBoost的眼屈光多源數(shù)據(jù)自動(dòng)分類方法,具體包含以下步驟:
步驟1:對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。包含數(shù)據(jù)的篩選、數(shù)值化、標(biāo)簽化以及訓(xùn)練集、測(cè)試集的劃分等操作。
步驟2:根據(jù)醫(yī)生的經(jīng)驗(yàn)和統(tǒng)計(jì)策略挑選出與數(shù)據(jù)分類的屬性特征作為訓(xùn)練所用的最原始的特征。
步驟3:基于篩選之后的數(shù)據(jù),利用XGBoost進(jìn)一步進(jìn)行特征篩選,選取與目標(biāo)最為相關(guān)的屬性特征。
步驟4:基于選取的訓(xùn)練樣本,訓(xùn)練XGBoost模型用以針對(duì)多源數(shù)據(jù)實(shí)現(xiàn)自動(dòng)分類;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于王雁,未經(jīng)王雁許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010234736.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Xgboost框架的醫(yī)院門(mén)診就診量預(yù)測(cè)方法
- 一種基于xgBoost模型和Hadoop架構(gòu)的竊電識(shí)別分析方法及終端
- 基于改進(jìn)XGBoost的泛癌癥基因通路預(yù)測(cè)方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于XGBoost算法的區(qū)塊鏈產(chǎn)品檢測(cè)方法、系統(tǒng)及裝置
- 用于XGBoost模型的解釋方法
- 基于XGboost模型的鋰離子電池荷電狀態(tài)估算
- 一種數(shù)據(jù)隱私保護(hù)協(xié)議的分析方法、裝置及電子設(shè)備
- 一種基于xgboost算法的短期電價(jià)預(yù)測(cè)方法及裝置
- 基于GA-PSO優(yōu)化XGBoost的水文時(shí)間序列預(yù)測(cè)方法
- 一種用戶異常用電行為檢測(cè)方法及裝置





