[發(fā)明專利]基于bagging算法的乳腺癌預(yù)測系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110203468.0 | 申請日: | 2021-02-23 |
| 公開(公告)號: | CN112927795B | 公開(公告)日: | 2022-09-23 |
| 發(fā)明(設(shè)計)人: | 余之剛;何勇;劉麗媛;考春雨;王斐;楊芙;范葉葉 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G16H50/70 |
| 代理公司: | 濟南聯(lián)合竟成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 37371 | 代理人: | 田相迪 |
| 地址: | 250000 *** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 bagging 算法 乳腺癌 預(yù)測 系統(tǒng) | ||
本發(fā)明屬于乳腺癌預(yù)測技術(shù)領(lǐng)域,尤其涉及基于bagging算法的乳腺癌預(yù)測方法,病例?對照數(shù)據(jù)收集:基于乳腺癌防治相關(guān)知識設(shè)計調(diào)查問卷,問卷包含被認(rèn)為對乳腺癌有影響的特征變量,通過該問卷收集來自中國三省一市25?70歲122058名女性的乳腺疾病流行病學(xué)研究數(shù)據(jù),記錄病例?對照數(shù)據(jù)備份,數(shù)據(jù)處理:對問卷收集來的數(shù)據(jù)進行數(shù)據(jù)清洗,刪除重復(fù)信息以及缺失值或異常值過多的無效樣本和特征變量。該基于bagging算法的乳腺癌預(yù)測方法,通過集成學(xué)習(xí)建立了一個有效的預(yù)測乳腺癌患病風(fēng)險的模型,幫助醫(yī)護人員預(yù)測處于乳腺癌的患者,及時并準(zhǔn)確地對高危人群采取針對性的措施,這將有助于乳腺癌的輔助診斷和預(yù)防,為智能診斷作出貢獻。
技術(shù)領(lǐng)域
本發(fā)明涉及乳腺癌預(yù)測技術(shù)領(lǐng)域,具體為基于bagging算法的乳腺癌預(yù)測系統(tǒng)。
背景技術(shù)
惡性腫瘤(癌癥)已經(jīng)成為嚴(yán)重威脅中國人群健康的主要公共衛(wèi)生問題之一,其中乳腺癌為女性癌癥之首。全球乳腺癌發(fā)病率自20世紀(jì)70年代末開始一直呈上升趨勢。由于地區(qū)分布不均衡,乳腺癌防控形勢嚴(yán)峻,防治難度巨大。因此,篩查重要影響因素,建立乳腺癌風(fēng)險評估模型,預(yù)測乳腺癌發(fā)生概率,對乳腺癌的防治具有重要意義。常用乳腺癌風(fēng)險模型包括:BOADICEA、BRCAPRO、BCRAT和IBIS。BOADICEA基于2785個家系進行更新,分離出537個BRCA1或BRCA2突變,能夠針對多基因多癌癥進行風(fēng)險評估。BRCAPRO模型基于301個BRCA基因突變檢測家族的數(shù)據(jù),對基因外顯功能進行了調(diào)整,充分考慮了家族史的重要性,但是忽略了Gail模型涉及的非家族史信息。Gail模型在1989年首次提出,是目前最為精確、權(quán)威、常用的乳腺癌風(fēng)險評估模型。BCRAT模型即為改良Gail模型,目前也被美國癌癥研究所(NCI)采用,作為乳腺癌風(fēng)險評估工具模型。IBIS模型也稱Tyrer-Cuzick模型,能夠評估具有非典型增生的女性未來10年發(fā)展為乳腺癌的概率,但在個體層面上不能明確區(qū)分是否發(fā)生浸潤性乳腺癌,顯著高估了非典型婦女乳腺癌的風(fēng)險。由于基因序列檢測成本較高,考慮到醫(yī)療資源有限,特別是在我國農(nóng)村地區(qū),迫切需要一種適合一般人群篩查的風(fēng)險預(yù)測模型。
近年來,機器學(xué)習(xí)算法在醫(yī)療領(lǐng)域的應(yīng)用頻率和研究深度增長迅速,已經(jīng)有學(xué)者應(yīng)用機器學(xué)習(xí)算法實現(xiàn)對部分疾病患病率的預(yù)測,且效果顯著,集成學(xué)習(xí)是機器學(xué)習(xí)算法中較有特點的一類,它是按照將弱分類器集成為強分類器的思路來組合基礎(chǔ)模型,集成學(xué)習(xí)模型除了在穩(wěn)定性和泛化能力上相比傳統(tǒng)模型表現(xiàn)突出,在最終的預(yù)測準(zhǔn)確率上也相對較高。
疾病預(yù)測在根據(jù)真實數(shù)據(jù)建模的過程中,往往會遇到數(shù)據(jù)質(zhì)量差、缺失值較多等問題,在數(shù)據(jù)預(yù)處理過程中,選擇怎樣的處理方式將使預(yù)測精度最高的問題;使用bagging集成學(xué)習(xí)框架并加以改進,以解決樣本標(biāo)簽不足可能會產(chǎn)生的過擬合問題,并使融合后的模型較其他經(jīng)典模型性能表現(xiàn)更好,同時篩選重要特征變量,使得預(yù)測模型在不損失預(yù)測精度的前提下得以簡化,降低計算的復(fù)雜度。
發(fā)明內(nèi)容
(一)解決的技術(shù)問題
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了使用bagging集成學(xué)習(xí)框架并加以改進,以解決樣本標(biāo)簽不足可能會產(chǎn)生的過擬合問題,并使融合后的模型較其他經(jīng)典模型性能表現(xiàn)更好的問題,同時篩選重要特征變量,使得預(yù)測模型在不損失預(yù)測精度的前提下得以簡化,降低計算的復(fù)雜度等優(yōu)點,解決了疾病預(yù)測在根據(jù)真實數(shù)據(jù)建模的過程中,往往會遇到數(shù)據(jù)質(zhì)量差、缺失值較多等問題,在數(shù)據(jù)預(yù)處理過程中,選擇怎樣的處理方式將使預(yù)測精度最高的問題。
(二)技術(shù)方案
為實現(xiàn)上述預(yù)測模型在不損失預(yù)測精度的前提下得以簡化、降低計算的復(fù)雜度等目的,解決疾病預(yù)測在根據(jù)真實數(shù)據(jù)建模的過程中,往往會遇到數(shù)據(jù)質(zhì)量差、缺失值較多等問題,本發(fā)明提供如下技術(shù)方案:基于bagging算法的乳腺癌預(yù)測系統(tǒng),包括處理單元,處理單元執(zhí)行以下步驟:
S1、病例-對照數(shù)據(jù)收集
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110203468.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 乳腺癌細(xì)胞MDA-MB-231的核酸適體LXL-2及其應(yīng)用
- 乳腺癌細(xì)胞MDA-MB-231的核酸適體LXL-3及其應(yīng)用
- 乳腺癌細(xì)胞MDA-MB-231的核酸適體LXL-1及其應(yīng)用
- 試劑在制備藥物中的用途以及篩選藥物的方法
- 一種乳腺癌干細(xì)胞特異性結(jié)合多肽及其在制備治療乳腺癌藥物中的應(yīng)用
- 乳腺癌分型基因群及其應(yīng)用
- 羥基紅花黃色素B在制備治療乳腺癌藥物中的應(yīng)用
- IL1R2在乳腺癌預(yù)后評估與靶向治療中的應(yīng)用
- 乳腺腫瘤組織中CICs在制備預(yù)測乳腺癌預(yù)后生存產(chǎn)品中的應(yīng)用
- 多模態(tài)多參數(shù)乳腺癌篩查系統(tǒng)、裝置及計算機存儲介質(zhì)





