[發明專利]一種用于宏基因組測序數據的微生物物種與功能組成分析方法在審
| 申請號: | 202011592565.5 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112599198A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 李鴻毅;曲昊淼;寇文伯;薛正晟;孫子奎 | 申請(專利權)人: | 上海派森諾生物科技股份有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B50/00 |
| 代理公司: | 上海點威知識產權代理有限公司 31326 | 代理人: | 胡志強 |
| 地址: | 200030 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 宏基 序數 微生物 物種 功能 組成 分析 方法 | ||
1.一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于,包括下列步驟:
1)切除原始數據中的接頭序列片段、低質量片段,濾除過短序列、含模糊堿基序列;若已知宿主基因組,則將宿主序列剔除;
2)使用上述獲得的數據進行物種注釋,并統計物種序列數即為豐度,再基于注釋結果剔除注釋到非目的物種的序列;
3)對剔除非目物種后的序列進行拼接,獲得疊連群序列;
4)對疊連群序列進行相似性聚類,并計算各樣本非冗余的疊連群序列豐度,并去掉總豐度為零的序列;
5)使用blastn算法,對非冗余的疊連群序列進行核酸數據庫比對,并采用共同祖先算法獲取拼接序列的物種注釋信息,再基于注釋信息,將步驟2)中注釋得到的物種分為已驗證存在的物種與疑似存在物種;
6)預測非冗余的疊連群序列中的基因區域,獲得基因序列及其翻譯的蛋白序列,再對蛋白序列進行相似性聚類,獲得非冗余蛋白序列集;
7)將非冗余蛋白序列集與各類蛋白注釋數據庫進行比對,獲得基因序列和蛋白序列的功能注釋信息;
8)計算基因序列豐度,再通過基因/蛋白對應功能信息,獲得功能豐度表。
2.如權利要求1所述的一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于:步驟1)中使用FastQC檢查原始數據的測序質量情況;使用fastp或trimmomatic軟件其中一種將原始數據中低質量片段切割,并濾除接頭序列和過短序列,獲得高質量序列;使用bowtie2或bmtagger其中一種軟件,去除比對到宿主基因組上的序列。
3.如權利要求1所述的一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于:步驟2)中進行物種注釋為進行非拼接序列的物種注釋,將質控后的序列基于物種注釋數據庫進行k-mer檢索或局部相似性比對,獲取序列的物種注釋信息以及物種豐度表一,其中使用kraken2及核酸序列數據庫進行k-mer檢索或使用kaiju及蛋白序列數據庫進行局部相似性比對;使用bracken計算物種組成豐度表;非目的序列默認為注釋到后生動物及綠色植物的序列或者注釋到自定義的物種的序列。
4.如權利要求1所述的一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于:步驟3)中序列拼接為對剔除非目物種后的序列進行拼接,獲得疊連群序列,并去冗余;所述拼接方式包括各樣本單獨拼接,再分別找出各樣本無法比對上的序列,對無法比對上的序列進行混合拼接;或先對各樣本按分組分別合并拼接,再分別找出各樣本無法比對上的序列,對無法比對上的序列進行混合拼接;或對所有樣本合并拼接;所述拼接用的拼接軟件為megahit或metaspades;使用minimap2或bowtie2軟件找出各樣本無法比對上疊連群的序列。
5.如權利要求1所述的一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于:所述疊連群核酸序列行相似性聚類采用的聚類軟件為MMseqs2或cd-hit,所述MMseqs2采用easy-linclust模式;計算各樣本非冗余的疊連群序列豐度采用基于比對的htseq-count或不基于比對的salmon。
6.如權利要求1所述的一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于:所述步驟5)中比對用軟件為minimap2或bowtie2。
7.如權利要求1所述的一種用于宏基因組測序數據的微生物物種與功能組成分析方法,其特征在于:所述步驟6)中基因預測軟件為metagenemark、prodigal或FragGeneScan其中一種;蛋白序列聚類軟件為cd-hit或MMseqs2,所述MMseqs2的聚類模式為easy-linclust或easy-cluster模式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海派森諾生物科技股份有限公司,未經上海派森諾生物科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011592565.5/1.html,轉載請聲明來源鉆瓜專利網。





