[發明專利]一種兒童膿毒性休克預后預測的建模方法及系統有效
| 申請號: | 201710661510.7 | 申請日: | 2017-08-04 |
| 公開(公告)號: | CN107480441B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 方芳 | 申請(專利權)人: | 方芳 |
| 主分類號: | G16H50/50 | 分類號: | G16H50/50 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 鞏克棟 |
| 地址: | 215000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 兒童 毒性 休克 預后 預測 建模 方法 系統 | ||
本發明公開了一種基于支持向量機的兒童膿毒性休克預后預測的建模方法及系統。所述方法根據兒童膿毒性休克預后基因表達高通量數據進行特征篩選,對篩選出的多個特征采用支持向量機(SVM)算法建模,實現對兒童膿毒性休克的預后精準預測,對兒童膿毒性休克的臨床預后預測提供分子水平的補充與支持。
技術領域
本發明屬于生物信息學領域,涉及一種基于支持向量機的兒童膿毒性休克預后預測的建模方法及系統。
背景技術
膿毒癥是一種具有高死亡率的炎癥反應失調性疾病,兒童膿毒癥也是全球兒童致死的一種重要誘因。膿毒性休克是膿毒癥中最為嚴重的類型,因此,發展兒童膿毒性休克的預后預測技術顯得尤為重要。目前,科研人員主要采用生物標記決策樹模型進行兒童膿毒性休克的建模預測。然而,由于決策樹算法可能會出現過擬合的問題,且忽略數據集中各屬性之間的相關性,無法解決機器學習的問題,且大幅度提高了泛化錯誤率。
生物標記數據挖掘和計算機模擬對于發展高效的預測技術十分關鍵,擅長處理大規模、有噪聲、但具有潛在價值的數據,現已成為多個研究領域中的強大技術手段。復雜疾病的數據挖掘和計算機模擬研究最初是基于變量間相互關系并采用邏輯回歸技術和網絡可視化技術進行的。近年來各種高通量技術的出現導致海量數據生成,各種復雜系統方法的使用也相應增加。其中,基于生物標記的支持向量機(SVM)機器學習算法可以實現高維、大規模數據的整合,具有泛化能力強等優點,可以解決樣本量小、高維度、非線性等機器學習問題,并能降低泛化錯誤率,但目前尚未建立基于表達譜數據的兒童膿毒性休克預后SVM模型。
發明內容
針對上述問題,本發明提供一種基于支持向量機的兒童膿毒性休克預后預測的建模方法及系統,根據兒童膿毒性休克預后基因表達高通量數據進行特征篩選,對篩選出的多個特征采用支持向量機(SVM)算法建模,實現對兒童膿毒性休克的預后精準預測,對兒童膿毒性休克的臨床預后預測提供分子水平的補充與支持。
第一方面,本發明提供一種基于支持向量機的兒童膿毒性休克預后預測的建模方法,包括以下步驟:
(1)在GEO(Gene Expression Omnibus)數據源內收集兒童膿毒性休克基因表達的高通量數據;
(2)對高通量數據依次進行預處理和數據匯總,得到預處理后數據;
(3)從預處理后數據中篩選出相對于存活組在死亡組中異常表達的基因,得到兒童膿毒性休克預后不良的異常表達基因數據集;
(4)對兒童膿毒性休克預后不良的異常表達基因數據集進行格式轉換,形成訓練生物標記數據集;
(5)對訓練生物標記數據集進行特征篩選,選出使預測準確度達到最高的最少特征的集合,即用于模型構建的特征集合;
(6)使用步驟(5)所述特征集合和訓練生物標記數據集,采用支持向量機(SVM)算法,使用R程序中的kernlab程序包構建兒童膿毒性休克預后預測模型。
GEO(Gene Expression Omnibus)數據源是歸檔和自由分發科研人員提交的高通量基因表達數據的公共倉庫,存儲了來自100多種生物的大約10億單個基因表達的數據,網址是www.ncbi.nih.gov/geo。
支持向量機(SVM)算法的基本原理如下:
若給定一個訓練樣本集:(xi,yi),i=1,2,…,N,
其中,xi∈Rd,d是輸入空間的維數,yi∈{-1,1}表示類別標號,N是訓練樣本數。則d維空間的線性判別函數一般形式為:
f(x)=wx+b,
分類平面的方程為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于方芳,未經方芳許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710661510.7/2.html,轉載請聲明來源鉆瓜專利網。





