[發(fā)明專(zhuān)利]一種基于隨機(jī)森林算法的腫瘤數(shù)據(jù)統(tǒng)計(jì)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010332980.0 | 申請(qǐng)日: | 2020-04-24 |
| 公開(kāi)(公告)號(hào): | CN111524606A | 公開(kāi)(公告)日: | 2020-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 趙杰;翟運(yùn)開(kāi);馬倩倩;葉明;陳昊天;何賢英;崔芳芳;李明原 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鄭州大學(xué)第一附屬醫(yī)院 |
| 主分類(lèi)號(hào): | G16H50/70 | 分類(lèi)號(hào): | G16H50/70;G06K9/62 |
| 代理公司: | 常州佰業(yè)騰飛專(zhuān)利代理事務(wù)所(普通合伙) 32231 | 代理人: | 姜曉鈺 |
| 地址: | 450001 河*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 隨機(jī) 森林 算法 腫瘤 數(shù)據(jù) 統(tǒng)計(jì) 方法 | ||
1.一種基于隨機(jī)森林算法的腫瘤數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于:包括如下步驟:
步驟1:建立中央服務(wù)器和多個(gè)數(shù)據(jù)采集服務(wù)器,所有數(shù)據(jù)采集服務(wù)器均與中央服務(wù)器通過(guò)互聯(lián)網(wǎng)通信;
數(shù)據(jù)采集服務(wù)器部署在醫(yī)院的各個(gè)科室內(nèi),用于采集各科室內(nèi)收集到的醫(yī)療數(shù)據(jù);
步驟2:在中央服務(wù)器中建立數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)庫(kù)模塊、模型建立模塊和圖形化模塊;
步驟3:數(shù)據(jù)采集服務(wù)器向中央服務(wù)器定時(shí)發(fā)送收集到的醫(yī)療數(shù)據(jù);
中央服務(wù)器獲取到醫(yī)療數(shù)據(jù)后,通過(guò)數(shù)據(jù)預(yù)處理模塊對(duì)醫(yī)療數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,篩選掉缺失值和異常值,得到清洗后醫(yī)療數(shù)據(jù);
步驟4:數(shù)據(jù)預(yù)處理模塊對(duì)清洗后醫(yī)療數(shù)據(jù)進(jìn)行均值方差歸一化處理,得到待處理醫(yī)療數(shù)據(jù)集;
步驟5:數(shù)據(jù)庫(kù)模塊存儲(chǔ)待處理醫(yī)療數(shù)據(jù)集;
步驟6:模型建立模塊讀取數(shù)據(jù)庫(kù)模塊中的待處理醫(yī)療數(shù)據(jù)集,并根據(jù)以下方法建立風(fēng)險(xiǎn)模型:
步驟S1:以是否患腫瘤作為分層,分別隨機(jī)抽取2/3樣本作為訓(xùn)練集,剩余1/3樣本作為測(cè)試集;
步驟S2:從平衡訓(xùn)練集中,采用bootstrap重抽樣方法有放回地隨機(jī)抽取K個(gè)新的訓(xùn)練樣本集,而每次未被抽到的觀測(cè)構(gòu)成了K個(gè)袋外數(shù)據(jù)(out-of-bag,OOB),用于評(píng)價(jià)每棵樹(shù)的性能;
步驟S3:設(shè)定經(jīng)過(guò)篩選后特征總數(shù)為M0,在每一棵決策樹(shù)的任一節(jié)點(diǎn)處隨機(jī)抽取m個(gè)特征(mM0),其中通過(guò)最小基尼增益值GiniGain作為決策樹(shù)分類(lèi)方案,選擇一個(gè)最具有分類(lèi)能力、最優(yōu)特征進(jìn)行節(jié)點(diǎn)分裂,由此構(gòu)建K個(gè)分類(lèi)樹(shù){C1,C2,…,CK}作為弱分類(lèi)器:
其中S1、S2為樣本集S的兩個(gè)樣本子集,n1、n2為兩個(gè)樣本子集的數(shù)量,N為樣本容量。對(duì)于樣本S中的特征,計(jì)算任意可能的特征組合的GiniGain,選擇GiniGain最小的特征值組合作為決策樹(shù)當(dāng)前節(jié)點(diǎn)的最優(yōu)分類(lèi)方案。
步驟S4:使每棵樹(shù)最大限度地生長(zhǎng),對(duì)數(shù)據(jù)進(jìn)行分類(lèi);
步驟S5:對(duì)決策樹(shù)進(jìn)行加權(quán)處理,使用袋外數(shù)據(jù)的F1計(jì)算每個(gè)決策樹(shù)的分類(lèi)正確程度,根據(jù)以下公式對(duì)弱分類(lèi)器賦予權(quán)重:
其中,oobF1(i)表示第i棵決策樹(shù)的袋外數(shù)據(jù)的F1值,其為精度和召回率的調(diào)和平均;
步驟S6:基于步驟S4的方法加權(quán)投票法集成K棵決策樹(shù)分類(lèi)結(jié)果;
步驟S7:遍歷決策樹(shù)個(gè)數(shù)K,特征數(shù)目m組合,基于運(yùn)算效率與OOB錯(cuò)誤率最小化準(zhǔn)則,采用網(wǎng)格搜索算法與十折交叉驗(yàn)證法,將K與m劃分網(wǎng)格,通過(guò)搜索每個(gè)網(wǎng)格中的參數(shù)進(jìn)行參數(shù)確定和優(yōu)化;
步驟S8:向訓(xùn)練好的隨機(jī)森林模型中導(dǎo)入測(cè)試集,輸出測(cè)試集結(jié)果,得到混淆矩陣,通過(guò)敏感度Sensitivity、特異性Specificity、準(zhǔn)確率Accuracy、G-mean和受試者工作特征曲線ROC下面積AUC指標(biāo)評(píng)估分類(lèi)器性能;
步驟7:圖形化模塊將步驟S8得出的分類(lèi)器性能結(jié)果通過(guò)圖形或表格的形式進(jìn)行展示。
2.如權(quán)利要求1所述的一種基于隨機(jī)森林算法的腫瘤數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于:所述醫(yī)療數(shù)據(jù)包括腫瘤數(shù)據(jù)。
3.如權(quán)利要求1所述的一種基于隨機(jī)森林算法的腫瘤數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于:在執(zhí)行步驟4時(shí),數(shù)據(jù)預(yù)處理模塊將清洗后醫(yī)療數(shù)據(jù)作為樣本數(shù)據(jù),并根據(jù)以下公式對(duì)清洗后醫(yī)療數(shù)據(jù)進(jìn)行均值方差歸一化處理:
其中,樣本數(shù)據(jù)中的最大值是xmax,樣本數(shù)據(jù)中的最小值是xmin,xmax-xmin表示樣本數(shù)據(jù)的極差。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鄭州大學(xué)第一附屬醫(yī)院,未經(jīng)鄭州大學(xué)第一附屬醫(yī)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010332980.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲(chǔ)器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶(hù)設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測(cè)裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲(chǔ)介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備





