[發明專利]一種基于腸道菌群預測模型集成學習的年齡預測方法在審
| 申請號: | 202111360059.8 | 申請日: | 2021-11-17 |
| 公開(公告)號: | CN114093515A | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 王鴻超;陳宇濤;陸文偉;朱金林;趙建新;張灝;陳衛 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G16H50/30 | 分類號: | G16H50/30;G16H10/60;G16H50/50 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 張碧珂 |
| 地址: | 214122 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 腸道 預測 模型 集成 學習 年齡 方法 | ||
1.一種基于腸道菌群預測模型集成學習的年齡預測方法,其特征在于,所述預測方法包括如下步驟:
步驟一:獲取不同年齡的成年人的腸道菌群數據樣本作為原始數據,同時收集與數據樣本相對應的宿主的背景信息,包括年齡以及地域特征;
步驟二:對于步驟一獲取的原始數據進行預處理,所述預處理包括對宿主背景信息的整理以及對原始數據的質量控制,以及對腸道菌群物種和代謝通路進行注釋獲得相對豐度信息表;其中,相對豐度是指腸道菌群物種及代謝通路兩者各自的相對豐度;
步驟三:對于經過注釋后得到的相對豐度信息表進行歸一化處理,并選定特征選擇算法的最佳算法;
步驟四:采用最佳算法對腸道菌群物種及代謝通路的相對份豐度信息表進行特征選擇;采用特征選擇后的相對份豐度信息表構建多類年齡預測模型;并使用網格搜索方法篩選每一類模型中的最佳預測模型;
步驟五:將各類模型中選定的最佳預測模型通過集成學習來構建最終的集成年齡預測方法;
步驟六:利用步驟五構建的集成年齡預測方法對待預測的數據樣本進行年齡預測。
2.根據權利要求1所述的預測方法,其特征在于,所述步驟一中還包括:
步驟A1:根據關鍵詞檢索相關文獻,以構建腸道菌群數據集,所述關鍵詞包括人類腸道菌群,宏基因組;并且,通過文獻研讀篩選并結合NCBI SRA數據庫來獲取對應的腸道菌群原始宏基因組測序數據以及相對應的宿主背景信息,包括年齡以及國家水平的地域特征;
步驟A2:使用宏基因組學全基因組測序技術進行測序并分析,收集成年人糞便樣本進行測序并收集相關宿主背景信息。
3.根據權利要求1所述的預測方法,其特征在于,所述步驟二中還包括:
步驟B1:對于收集獲得的數據樣本對應的宿主的背景信息進行過濾,選擇18歲以上并且具有地域標簽的成年人作為研究對象,并將其依照地域因素的地理位置,從國家水平聚類至子區間;
步驟B2:對于獲得的腸道菌群物種的原始數據,使用BWA和samtools結合人類參考基因組Hg38去除測序數據中的宿主序列,使用Trimmomatic對于去宿主后的序列進行質量控制,包括去接頭以及去除低質量序列;
步驟B3:對于質量控制后的高質量序列,使用MetaPhlAn和HUMAnN軟件進行物種組成和代謝通路注釋,從而獲得腸道菌群物種和代謝通路的組成及相對豐度信息表。
4.根據權利要求1所述的預測方法,其特征在于,所述步驟三中還包括:
步驟C1:對注釋獲得的腸道菌群物種及代謝通路的組成及相對豐度信息表進行歸一化處理,將所有的數據映射到特定的數值范圍內,使用零-均值歸一化:
z=(x-μ)/σ
式中,z為經過歸一化之后的數值,x為未歸一化的原始豐度值,μ為x所對應特征的豐度均值,σ為所對應特征豐度的標準差;
步驟C2:對歸一化后的腸道菌群物種和代謝通路的相對豐度信息表分別使用單變量線性回歸檢驗、連續變量互信息估計、隨機森林、梯度提升回歸樹、XGBoost和LightGBM進行特征選擇,使用套索算法、彈性網絡、貝葉斯嶺回歸、支持向量機、隨機森林、梯度提升回歸樹、XGBoost和LightGBM模型對特征選擇前后的年齡預測性能進行比較,并將具有最多預測正確率顯著性增加模型數量的特征選擇算法作為最佳方法;在預測差異變化相同的情況下,將具有最少特征數量的特征選擇算法選定為最佳算法。
5.根據權利要求1所述的預測方法,其特征在于,所述步驟四中還包括:
步驟D1:使用選定的最佳算法對腸道菌群物種和代謝通路的相對豐度信息表進行特征選擇,并將地域因素標簽作為額外特征,與特征選擇后的腸道菌群物種和代謝通路的相對豐度信息表進行合并;
步驟D2:對合并后的腸道菌群物種組成和代謝通路的相對豐度信息表分別使用套索算法、彈性網絡、貝葉斯嶺回歸、支持向量機、隨機森林、梯度提升回歸樹、XGBoost和LightGBM模型構建年齡預測模型,并利用網格搜索方法篩選上述每一類模型中具有最佳年齡預測性能的模型超參數組合,最佳超參數組合所對應的模型為該類模型中的最佳預測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111360059.8/1.html,轉載請聲明來源鉆瓜專利網。





