[發明專利]一種肺腺癌生物標志物篩選、預后模型構建及生物學驗證的新方法有效
| 申請號: | 202110475896.9 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113130002B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 劉元寧;趙曦;張浩;鐘曉丹;王林宇 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G06K9/62;G06N20/10 |
| 代理公司: | 長春市恒譽專利代理事務所(普通合伙) 22212 | 代理人: | 鞠傳龍 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 腺癌 生物 標志 篩選 預后 模型 構建 生物學 驗證 新方法 | ||
本發明公開了一種肺腺癌生物標志物篩選、預后模型構建及生物學驗證的新方法,其方法為:步驟一、對原始的基因表達矩陣進行數據的預處理;步驟二、在經過預處理后得到的數據上進行生物標志物篩選;步驟三、使用經過上述多步驟特征選擇的肺腺癌預后標志物構建預后模型;步驟四、建模之后對選出的標志物進行生信分析。有益效果:使用線性支持向量機模型驗證45個基因標志物,利用五折較差驗證的AUC和ACC作為模型評估指標,最終的結果為AUC=0.98,ACC=0.92。該結果明顯優于大多數傳統基因標志物選擇方法,本發明不僅能找出與肺癌相關的標志物,準確預測肺癌患者的生存期,同時還能發掘與肺腺癌發生相關的通路,探究肺腺癌的發生機制。
技術領域
本發明涉及一種模型構建及生物學驗證的新方法,特別涉及一種肺腺癌生物標志物篩選、預后模型構建及生物學驗證的新方法。
背景技術
目前,肺癌是一種死亡率和發病率居全世界首位的惡性腫瘤。除此之外,肺癌惡性程度高,預后較差,5年生存率僅有8%。肺癌的治療手段多種多樣,傳統的治療手段包括藥物治療、手術治療、放療、化療等。進入二十一世紀后,分子靶向治療取得了重大突破,通過針對癌癥特異性因子進行治療的效果遠遠好于傳統療法。因此,找到與癌癥的發病機理相關的特異性生物分子也是當前的腫瘤生物學領域的研究熱點。
近幾年越來越多的研究團隊致力于肺腺癌腫瘤標志物的挖掘和預后模型的構建,這些方法可以分為兩類,一類是基于傳統生物學的方法:研究者們采集肺癌患者的尿液,血漿,病理切片,細胞組織液等生物樣本,通過分析實驗組和對照組中不同生物分子的濃度,或者通過抗原-抗體結合反應、相關激酶代謝反應、免疫學反應或者與某種特定試劑的陽性反應來判斷。這樣生化方法通常手段復雜,實驗花費開銷昂貴,效率低,同時會由于實驗人員的操作帶來誤差。另一類是基于高通量組學與統計學、機器學習結合的標志物挖掘方法。常規的方法包括以醫學統計學為基礎,最常見的是Cox變量分析尋找與預測目標相關性較強的標志物,并使用KM曲線進行生存分析挖掘標志物的方法。同時,生信數據庫在標志物的篩選中也發揮重要作用,例如DAVID,STRING,GeneBank,Gene Ontology等被廣泛地應用于生物信息的挖掘中。隨著機器學習和數據挖掘技術的發展,越來越多的方法被應用到標志物的篩選中。常規的RFE特征選擇算法,二進制的粒子群優化算法,深度學習也在不同的數據集體現出色性能,同時使用機器學習算法取代傳統的風險回歸模型也能的都更高的精度。雖然基于高通量的手段可以減小實驗損耗,提升效率,但是面對上萬維度的特征時,如何有效地選出最佳標志物這一問題,依然是當前相關領域要解決的重點難題。
遞歸特征消除的主要思想是反復的構建模型,然后根據特征重要性篩選刪除一部分不重要的特征,接下來在剩余的特征上重復這個過程,直到當前特征集合為空為止。之后輸出被刪除的特征排序即為即為特征重要性排序。在生物學信息中,SVM與RFE結合是最常用的方法,在多個生物組學數據集中表現優越。
SFFS算法,即序列浮動向前算法是一種常見的基于Wrapper的特征選擇方法,基本思想如下:從空集開始,在未選擇的特征中選擇一個特征x,使子集加入x后評價函數達到最優。然后在已選擇的特征中刪除一個特征y,使子集剔除z后評價函數達到最優。
發明內容
本發明的目的是能快速、準確地篩選與肺腺癌患者預后生存相關的標志物,利用選出的標志物構建預后模型并對這些標志物進行生物信息學驗證,而提供的一種肺腺癌生物標志物篩選、預后模型構建及生物學驗證的新方法。
本發明提供的肺腺癌生物標志物篩選、預后模型構建及生物學驗證的新方法,其方法包括如下步驟:
步驟一、對原始的基因表達矩陣進行數據的預處理,首先使用匹配文件進行注釋,將探針名改為基因名,按照如下方式進行數據預處理:
1)、刪除缺失率超過20%的轉錄組特征基因;
2)、刪除方差接近0的轉錄組特征基因;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110475896.9/2.html,轉載請聲明來源鉆瓜專利網。





