[發明專利]一種基于隨機森林算法的腫瘤數據統計方法在審
| 申請號: | 202010332980.0 | 申請日: | 2020-04-24 |
| 公開(公告)號: | CN111524606A | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 趙杰;翟運開;馬倩倩;葉明;陳昊天;何賢英;崔芳芳;李明原 | 申請(專利權)人: | 鄭州大學第一附屬醫院 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06K9/62 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 姜曉鈺 |
| 地址: | 450001 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 森林 算法 腫瘤 數據 統計 方法 | ||
本發明公開了一種基于隨機森林算法的腫瘤數據統計方法,屬于大數據領域,包括建立中央服務器和多個數據采集服務器,對數據進行預處理,根據隨機森林算法在訓練集上訓練得到醫療數據擬合度模型,對醫療數據擬合度模型進行多指標評價,解決了有效的對腫瘤數據進行準確統計的問題,本發明消除了數據的量綱以及數據取值范圍可能對實驗結果造成的影響,使用敏感度(Sensitivity)、特異性(Specificity)、準確率(Accuracy)、G?mean、AUC等多個指標等多個指標從多個角度評價模型的分類性能,提高了模型的準確度等多個指標從多個角度評價模型的分類性能,提高了模型的準確度。
技術領域
本發明屬于大數據技術領域,涉及一種基于隨機森林算法的腫瘤數據統計方法。
背景技術
腫瘤是發病率和死亡率增長最快,對人類生命健康威脅最大的惡性腫瘤之一。關于腫瘤的預測成為醫療界關注的熱點。傳統疾病預測耗時耗力,根據醫生經驗及外界環境的影響,數據統計正確率不高。
機器學習方法憑借其能對數據進行自動學習,從復雜數據中提取信息做出決策的強大能力,在生物醫療等領域得到了越來越多的關注,為這些領域中如何有效決策提供了一個新的方向。互聯網醫療是時代發展的必然趨勢,隨著機器學習的發展,越來越多的研究學者使用機器學習方法建立模型,對已有的數據進行分析研究。基于各種機器學習算法建立的疾病數據統計模型越來越多,但是腫瘤數據復雜多樣,基于傳統單分類算法建立的模型不能保證做出有效的分類統計。
發明內容
本發明的目的是提供一種基于隨機森林算法的腫瘤數據統計方法,解決了有效的對腫瘤數據進行準確統計的問題。
為實現上述目的,本發明采用如下技術方案:
一種基于隨機森林算法的腫瘤數據統計方法,包括如下步驟:
步驟1:建立中央服務器和多個數據采集服務器,所有數據采集服務器均與中央服務器通過互聯網通信;
數據采集服務器部署在醫院的各個科室內,用于采集各個科室內收集到的醫療數據;
步驟2:在中央服務器中建立數據預處理模塊、數據庫模塊、模型建立模塊和圖形化模塊;
步驟3:數據采集服務器向中央服務器定時發送收集到的醫療數據;
中央服務器獲取到醫療數據后,通過數據預處理模塊對醫療數據進行數據清洗,篩選掉缺失值和異常值,得到清洗后醫療數據;
步驟4:數據預處理模塊對清洗后醫療數據進行均值方差歸一化處理,得到待處理醫療數據集;
步驟5:數據庫模塊存儲待處理醫療數據集;
步驟6:模型建立模塊讀取數據庫模塊中的待處理醫療數據集,并根據以下方法建立風險模型:
步驟S1:以是否患腫瘤作為分層,分別隨機抽取2/3樣本作為訓練集,剩余1/3樣本作為測試集;
步驟S2:從平衡訓練集中,采用bootstrap重抽樣方法有放回地隨機抽取K個新的訓練樣本集,而每次未被抽到的觀測構成了K個袋外數據(out-of-bag,OOB),用于評價每棵樹的性能;
步驟S3:設定經過篩選后特征總數為M0,在每一棵決策樹的任一節點處隨機抽取m個特征(mM0),其中m=log2(M0)+1或通過最小基尼增益值GiniGain作為決策樹分類方案,選擇一個最具有分類能力、最優特征進行節點分裂,由此構建K個分類樹{C1,C2,…,CK}作為弱分類器:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州大學第一附屬醫院,未經鄭州大學第一附屬醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010332980.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種纖維加熱系統
- 下一篇:群組分享式攝影方法、拍攝設備、電子設備、存儲介質





