[發明專利]一種基于XGBoost特征選擇與深度學習結合的基因到表型預測方法和系統在審
| 申請號: | 202310359159.1 | 申請日: | 2023-03-31 |
| 公開(公告)號: | CN116597894A | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 吳翠玲;章依依;王軍;徐曉剛;馮獻忠;冷建田 | 申請(專利權)人: | 之江實驗室;中國科學院東北地理與農業生態研究所 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B20/30;G16B40/00;G06N5/01;G06N20/20;G06N3/0475;G06N3/098 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;楊東煒 |
| 地址: | 311121 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 xgboost 特征 選擇 深度 學習 結合 基因 表型 預測 方法 系統 | ||
1.基于XGBoost特征選擇與深度學習結合的基因到表型預測方法,其特征在于,包括以下步驟:
步驟1:篩選處理基因數據集和表型數據集;根據基因位點缺失率、最小等位基因頻率過濾基因位點以及表型值未知的數據;
步驟2:處理基因數據,由于基因測序技術的問題,基因位點會有缺失未知態的情況,利用TASSEL軟件中的基因插補技術KNNImputation對缺失基因位點進行插補;
步驟3:處理表型數據,將表型數據按照步長1為單位劃分為多個區間,每個區間的數據看作一個類別;
步驟4:將處理后的基因和表型數據利用XGBoost進行分類,并獲取每個基因位點的重要性量度;
步驟5:利用步驟4特征選擇后的基因位點進行自監督重構預訓練;
步驟6:根據重要性量度對基因位點進行onehot加權,利用步驟5得到的位點重構參數初始化網絡參數,利用深度學習技術進行基因到表型預測。
2.根據權利要求1所述的基于XGBoost特征選擇與深度學習結合的基因到表型預測方法,其特征在于,步驟1所述的表型包括株高、油脂含量、蛋白質含量、單株莢數、節數、百粒重。
3.根據權利要求1所述的基于XGBoost特征選擇與深度學習結合的基因到表型預測方法,其特征在于,所述步驟4具體包括:
步驟4.1:將處理后的基因數據按如下方式進行編碼:如果位點狀態0/0編碼為-1,狀態0/1編碼為0,狀態1/1編碼為1,表型數據取整,并按照步長為1為單位劃分到不同的區間,按照區間順序賦予相應的0到C-1的分類標簽,C為劃分的區間個數;
步驟4.2:將步驟4.1編碼后的基因位點數據輸入到隨機森林模型(RF?model)中得到特征選擇數據;
步驟4.3:特征選擇后作為新的數據輸入到XGBoost模型中利用步驟4.1的分類標簽計算如下分類損失,其中yi是真實的標簽,是預測的標簽:
步驟4.4:采用網格搜索找到最優參數;
步驟4.5:得到最優參數后按照如下公式輸出基因位點的特征重要度得分:
其中是分裂的左葉子節點得分,是分裂的右葉子節點得分,是未經過分裂的節點得分,β是懲罰項。
4.根據權利要求1所述的基于XGBoost特征選擇與深度學習結合的基因到表型預測方法,其特征在于,所述步驟5所述的基因位點自監督重構預訓練包括:
步驟5.1:計算步驟4.3特征選擇后的基因位點在每個位置的均值μi和方差σi2;
步驟5.2:將步驟5.1的均值和方差輸入到均值擬合神經網絡和方差擬合神經網絡中進行均值和方差的學習,方差擬合網絡進行logσi2的擬合學習來避免增加激活函數;
步驟5.3:利用步驟5.2均值擬合神經網絡和方差擬合神經網絡得到每個位點的分布p(z|xi),分布的均值和方差由步驟5.2所述的的神經網絡得到;
步驟5.4:利用步驟5.3的分布進行采樣得到每個位點的采樣結果,將每個位點的采樣結果輸入到生成對抗網絡GAN中進行位點的重構,通過GAN的生成器得到
步驟5.5:計算如下損失調整均值方差擬合網絡參數和生成器參數:
其中M是總的基因位點數量,KL(p(z|xi)||q(z))是均值方差擬合網絡輸出的分布p(z|xi)要接近標準正態分布,第二項為基因位點重構損失。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室;中國科學院東北地理與農業生態研究所,未經之江實驗室;中國科學院東北地理與農業生態研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310359159.1/1.html,轉載請聲明來源鉆瓜專利網。





