[發明專利]一種基于參考物種標簽約束的宏基因組序列深度聚類方法在審
| 申請號: | 202111389111.2 | 申請日: | 2021-11-22 |
| 公開(公告)號: | CN114065866A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 劉富;劉威;劉云;苗巖;侯濤;宋文智;余芳宇 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 朱陽波 |
| 地址: | 130012 *** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 參考 物種 標簽 約束 宏基 序列 深度 方法 | ||
1.一種基于參考物種標簽約束的宏基因組序列深度聚類方法,其特征在于,包括步驟:
第一步,預訓練步驟,包括:
1.1構建基于不同微生物群落的已知物種的預訓練數據庫;
1.2建立初始化模型;
1.3針對不同的微生物群落構建不同的預訓練模型;
第二步,微調步驟,包括:
2.1計算待測微生物群落的數據集重疊群序列4mer頻率,并歸一化得到微調的輸入特征頻率Y;
2.2加載待測微生物群落的預訓練模型以及參數;
2.3構建微調誤差函數;
2.4確定聚類個數;
2.5微調模型;
2.6完成聚類,得到聚類結果,并根據聚類指標衡量聚類結果。
2.根據權利要求1所述的基于參考物種標簽約束的宏基因組序列深度聚類方法,其特征在于,所述步驟1.1具體包括步驟:
a)下載不同微生物群落的已知物種的全基因組序列預訓練數據集;
b)將每個物種的全基因組序列從隨機起始位置截取隨機長度的序列;
c)計算步驟b)中截取的每條序列的4mer頻率特征,并進行歸一化,得到不同微生物群落的宏基因組預訓練4mer頻率歸一化特征X。
3.根據權利要求1所述的基于參考物種標簽約束的宏基因組序列深度聚類方法,其特征在于,所述步驟1.2具體包括步驟:
a)建立具有對稱結構的自編碼器;
b)選取函數作為激活函數,加入Dropout函數來調節模型參數和樣本量之間的關系;
c)設置模型參數;
d)構建預訓練誤差函數,其計算公式為:
ERRORpre=ERES+κELCN
其中,ERES表示重構誤差,ELCN表示標簽約束誤差,κ表示用于平衡重構誤差ERES和標簽約束誤差ELCN的超參數。
4.根據權利要求3所述的基于參考物種標簽約束的宏基因組序列深度聚類方法,其特征在于,所述重構誤差ERES的計算公式為:
其中,xi表示編碼網絡的輸入,f(xi)表示編碼網絡的輸出,g(f(xi))表示解碼網絡的輸出,N1表示總樣本的個數;
所述標簽約束誤差ELCN的計算公式為:
其中,Es表示衡量相同物種間的特征向量間的歐式距離,El表示衡量相同屬不相同物種間的特征向量間的距離,Ed表示衡量不同屬不同物種間的特征向量間的距離,n1、n2、n3為三種誤差下累加的次數且滿足β、λ是標簽約束相的超參數。
5.根據權利要求1所述的基于參考物種標簽約束的宏基因組序列深度聚類方法,其特征在于,所述步驟1.3中,構建預訓練模型具體包括步驟:
a)使用初始化后的網絡模型以及參數;
b)加載測試集樣本歸一化特征X,并送入初始化后網絡模型,計算重構誤差和標簽約束誤差;
c)應用反向傳播自適應矩估計方法,對不同變化的參數以自適應的學習率進行更新;
d)保存預訓練的模型以及參數,定義為待測微生物群落的預訓練模型。
6.根據權利要求1所述的基于參考物種標簽約束的宏基因組序列深度聚類方法,其特征在于,所述步驟2.3具體包括步驟:
利用深度k-mean聚類的方法,將k-mean聚類的誤差加入到預訓練得到的待測微生物群落的預訓練模型中,得到微調誤差函數:
其中,ERES表示重構誤差,ECLU表示聚類誤差,N2表示待測微生物群落樣本的個數,η表示用于平衡重構誤差ERES和聚類誤差ECLU的超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111389111.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種交互書籍
- 下一篇:汽車空調控制方法、控制裝置及汽車空調系統





