[發明專利]一種宏基因組重疊群無監督聚類方法及系統在審
| 申請號: | 202011474316.6 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112466404A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 李小波;姜忠俊 | 申請(專利權)人: | 浙江師范大學 |
| 主分類號: | G16B40/30 | 分類號: | G16B40/30;G16B30/20;G06K9/62 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 王豐毅 |
| 地址: | 321004 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 宏基 重疊 監督 方法 系統 | ||
本發明公開了一種宏基因組重疊群無監督聚類方法,所述方法是在聚類之前首先將各個樣本的reads放在一起組建基因文庫,然后通過組裝工具將reads組裝成contigs,根據四聯寡核苷酸的頻率以及co?abundance對每個contigs進行特征向量化,然后根據預先訓練的概率模型以及遞歸策略進行聚類,引入CheckM進行聚類結果質量檢測,并且用來簡化樣本的復雜性以及作為算法終止的條件,算法初始化采用marker gene分析得到結果作為菌株數量初始化以及聚類中心序列初始化。
技術領域
本發明涉及生物信息分析技術領域,尤其涉及一種宏基因組重疊群的無監督聚類方法及系統。
背景技術
在宏基因組技術出現之前,人們對于微生物的相關研究主要是通過人工對單一微生物物種進行純培養。但是自然環境中,絕大多數微生物很難或者不能在培養基上純培養。隨著第二代測序技術的發展,宏基因組技術應運而生。它可以直接從自然環境中獲取樣本全部微生物的遺傳物質,而不需要像傳統方法一樣在培養基上純培養。這為科學家研究微生物的群落結構,微生物之間的相互作用以及微生物與環境,疾病之間的關系提供了新的研究思路。第二代測序得到的短的鳥槍宏基因組reads片段可以被reads組裝工具組裝成更長的基因片段contigs,由于組裝工具的局限性,不能組裝出完整的基因,而只是零散的基因片段。采用機器學習的方法可以將零散的基因片段分類,從而得到完整的基因,以供后續的物種注釋和功能分析。
現有的宏基因組分類方法一般分為兩種,有監督分類和無監督聚類方法。早期,宏基因組組裝工具不能很好的對測序得到的reads片段進行組裝,大多數分類方法的數據對象是reads片段,由于reads片段很短只有50bp到200bp,攜帶信息很少,很難對reads進行有效的分類,隨著組裝工具的準確率上升,可以達到百分之98。越來越多的方法針對組裝后contigs片段進行分類,這里我們討論對組裝后的contigs片段分類的方法。有監督分類方法,利用已知的基因作為參考,根據基因序列的同源性以及序列組成的相似性進行分類,由于需要自我構建參考數據庫和索引,對計算機的內存和硬盤存儲空間要求很高,同時由于環境中有大量未知的物種,無法與參考數據庫里的序列進行匹配,所以會有大量無法分類的contigs。正相反,無監督聚類方法可以通過樣本中序列本身的組成特點或它們的豐度信息或者結合這兩種特點,進行聚類,可以得到未知的物種完整基因,從而發現新的物種。目前主流的方法主要有CONCOCT、Maxbin2.0、MetaBAT、MyCC、COCACOLA、DAS tool以及Metawrap。CONCOCT結合序列的組成信息和co-abundance,將序列特征向量化,然后用PCA方法進行降維,用高斯混合模型結合EM算法進行分類,在簡單復雜度數據集中(樣本中物種數量50左右)表現很好,但是在復雜環境數據集中表現不行。Maxbin2.0和MetaBAT結合序列組成特征以及co-abundance,并通過預先訓練的概率分布模型來計算每個序列到聚類中心點的概率,然后分別用改進后的EM算法和k-medoid算法進行分類,其中Maxbin2.0在中等復雜度數據集上(樣本中物種數量300左右)表現很好,但是在高復雜度數據集上(樣本中物種數量700左右)重建的高質量基因數量會降低,同時無法應用到超高復雜度數據集(物種數量1000以上)。MetaBAT是專門為復雜數據集設計的算法,可以在超高復雜度數據集上取得很好的效果,缺點是算法參數太多,針對不同的數據集要調參否則無法達到預期的效果。MyCC在多個樣本之一中結合了基因組特征,標志基因和可選的重疊群覆蓋范圍,在低和中等復雜度數據集上表現得很好,但是在復雜度高的數據集表現大大下降。COCACOLA相似性度量沒有使用歐式距離而是使用距離,同時通過稀疏正則化結合硬聚類和軟聚類的優點,此外COCACOLA還結合了定制的知識來提高聚類準確率,和大多數方法一樣無法在復雜環境數據集中獲得很好的表現。沒有任何一個方法可以在所有的環境樣本中獲得很好的表現,于是出現了DAS tool以及Metawrap,它們之中可以添加聚類方法例如CONCOCT、MyCC、Maxbin2.0、MetaBAT,然后將這些聚類算法得到的聚類結果進行去冗余的整合可以得到更多重建的基因。DAS tool以及Metawrap包含的這些聚類方法是同時應用在同一數據集,有些方法在復雜數據集表現不好(例如CONCOCT、MyCC),同時大多數方法在復雜數據集上重建基因的能力有待提高,所以這些方法聚類結果的整合雖然能提升重建基因的個數以及質量,但是效果卻有限。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江師范大學,未經浙江師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011474316.6/2.html,轉載請聲明來源鉆瓜專利網。





