[發明專利]一種基于參考物種標簽約束的宏基因組序列深度聚類方法在審
| 申請號: | 202111389111.2 | 申請日: | 2021-11-22 |
| 公開(公告)號: | CN114065866A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 劉富;劉威;劉云;苗巖;侯濤;宋文智;余芳宇 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 朱陽波 |
| 地址: | 130012 *** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 參考 物種 標簽 約束 宏基 序列 深度 方法 | ||
本發明提供了一種基于參考物種標簽約束的宏基因組序列深度聚類方法,設計了基于參考物種標簽約束的深度學習預訓練模型。本發明建立了基于不同群落的已知物種的預訓練數據庫,構建預訓練數據庫時將每條4mer特征向量分為同一物種、相同屬不同物種和不同屬不同物種三種情況,并分別研究了三種情況下的樣本間序列的4mer特征間的關系;建立了預訓練模型的標簽約束誤差函數,并且使用群落已知標簽的數據庫進行預訓練,針對不同的微生物群落構建不同預訓練模型;在用戶使用時,只需要針對不同的群落加載所需群落的預訓練模型,重新加載模型僅僅等待幾次微調步驟的迭代即可得到聚類結果。最終,所述聚類方法能夠展現非常優秀的聚類性能。
技術領域
本發明涉及生物信息學分析領域,尤其涉及一種基于參考物種標簽約束的宏基因組序列深度聚類方法。
背景技術
微生物是地球上種類最大、數量最多、分布最廣的生物群。人們對于微生物的研究主要是建立在純培養的基礎上,然而后來發現99%以上的微生物是不可培養的。為了研究不能培養的微生物,一個全新的理念——宏基因組學應運而生。宏基因組學利用新一代測序技術在不經過實驗室培養的情況下,能夠獲取環境中絕大部分的遺傳物質。與傳統的測序方法不同,宏基因組測序得到的原始數據是大量的、長度較短的、來源于多種微生物的DNA片段。研究人員根據DNA片段之間的重疊關系可以將這些零碎的短片段組裝成長度較長的DNA序列,生物信息學中稱這種組裝之后的DNA序列為重疊群(contigs)。將這些重疊群依據其物種歸屬進行分類是宏基因組數據分析中十分重要的一步。
然而,受宏基因組中不同物種間的豐度比、基因組長度等因素的影響,組裝后屬于不同物種的重疊群數量往往相差很多,因此,宏基因組重疊群數據是一種典型的不平衡數據集。如何對其進行有效地分類,是目前的一個研究難點。
因此,現有技術還有待改進。
發明內容
鑒于上述現有技術的不足,本發明的目的在于提供一種于參考物種標簽約束的宏基因組序列深度聚類方法,旨在解決現有技術在進行宏基因組DNA序列聚類時,因相同屬的臨近物種相似度較高而導致的聚類不準確的問題。
本發明的技術方案如下:
本發明提供一種基于參考物種標簽約束的宏基因組序列深度聚類方法,其中,包括步驟:
第一步,預訓練步驟,包括:
1.1構建基于不同微生物群落的已知物種的預訓練數據庫;
1.2建立初始化模型;
1.3針對不同的微生物群落構建不同的預訓練模型;
第二步,微調步驟,包括:
2.1計算待測微生物群落的數據集重疊群序列4mer頻率,并歸一化得到微調的輸入特征頻率Y;
2.2加載待測微生物群落的預訓練模型以及參數;
2.3構建微調誤差函數;
2.4確定聚類個數;
2.5微調模型;
2.6完成聚類,得到聚類結果,并根據聚類指標衡量聚類結果。
所述的基于參考物種標簽約束的宏基因組序列深度聚類方法,其中,所述步驟1.1具體包括步驟:
a)下載不同微生物群落的已知物種的全基因組序列預訓練數據集;
b)將每個物種的全基因組序列從隨機起始位置截取隨機長度的序列;
c)計算步驟b)中截取的每條序列的4mer頻率特征,并進行歸一化,得到不同微生物群落的宏基因組預訓練4mer頻率歸一化特征X。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111389111.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種交互書籍
- 下一篇:汽車空調控制方法、控制裝置及汽車空調系統





