[發明專利]一種基于snakemake流程的正選擇基因的檢測方法和系統有效
| 申請號: | 202110223562.2 | 申請日: | 2021-03-01 |
| 公開(公告)號: | CN112908410B | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 安冬;肖云平;史賢俊;林博;劉鈺釧;顧胤聰;鮑志貴;范旭蕾 | 申請(專利權)人: | 上海歐易生物醫學科技有限公司 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B25/00;G16B40/30;G16B30/10;G16B50/10 |
| 代理公司: | 上海德禾翰通律師事務所 31319 | 代理人: | 夏思秋 |
| 地址: | 201114 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 snakemake 流程 選擇 基因 檢測 方法 系統 | ||
1.一種基于snakemake流程的正選擇基因的檢測方法,其特征在于,所述方法具體包括以下步驟:
步驟一:下載包括目標物種在內的多個物種的基因組FASTA序列和注釋GFF3文件,用于研究目標物種中受正選擇的基因;
步驟二:根據注釋GFF3文件中的基因位置從基因組序列中提取基因的CDS序列,并翻譯成蛋白;
步驟三:以“物種簡稱_基因ID”對CDS序列和蛋白質序列重命名,并根據設定的規則對蛋白質序列進行過濾;
步驟四:對步驟三獲得的過濾后的物種的蛋白質序列進行比對,按一定標準篩選同源基因對,并對基因家族聚類,得到同一基因家族在每個物種中只有一個基因的單拷貝直系同源基因家族;
步驟五:獲得單拷貝直系同源基因家族中基因的蛋白質序列和CDS序列;
步驟六:以每個單拷貝直系同源基因家族為一個分析單元,利用MAFFT軟件進行多序列比對,得到蛋白質的多序列比對結果,根據蛋白質的序列比對結果和CDS序列,得到基因的編碼子序列;
步驟七:根據步驟六中的蛋白質的多序列比對結果,利用trimAL過濾,去除低質量的比對區域后,利用iqtree構建基因樹;
步驟八:整理基因樹格式,并將目標物種標記為前景支;
步驟九:利用PAML軟件包中的codeml命令通過支位點特異模型預測正選擇基因;所述支位點特異模型預測正選擇基因包括:1)設定零假設計算最大似然值;2)設定備擇假設計算最大似然值;3)計算兩個最大似然值之差并根據自由度利用卡方檢驗預測該基因是否受到正選擇。
2.如權利要求1所述的檢測方法,其特征在于,步驟一中,所述包括目標物種在內的多個物種均屬于特定的物種范圍;所述特定的物種范圍是指根據不同項目選擇的親緣關系較近的物種,包括同綱不同目,和/或同目不同科,和/或同科不同屬的物種。
3.如權利要求1所述的檢測方法,其特征在于,步驟二中,若基因編碼有多個轉錄本,則取最長轉錄本的CDS及其編碼的蛋白質序列。
4.如權利要求1所述的檢測方法,其特征在于,步驟三中,所述設定的規則為需過濾長度小于30個氨基酸和非甲硫氨酸開頭的蛋白質序列。
5.如權利要求1所述的檢測方法,其特征在于,步驟四中,所述篩選同源基因對的標準為序列相似程度evalue≤1e-05,進行家族聚類的標準為膨脹系數MCL=1.5。
6.一種實現權利要求1-5所述檢測方法的檢測系統,其特征在于,所述檢測系統包括:序列提取模塊、基因家族聚類模塊、多序列比對模塊、基因樹構建模塊、基因樹標記模塊、正選擇篩選模塊;
其中,所述序列提取模塊根據注釋GFF3和基因組信息提取CDS和蛋白質序列;
所述基因家族聚類模塊對多個物種的蛋白質序列根據序列相似程度進行基因家族聚類;
所述多序列比對模塊根據基因家族聚類結果,提取單拷貝直系同源基因,進行多序列比對;
所述基因樹構建模塊在過濾多序列比對的低質量區后,構建基因樹;
所述基因樹標記模塊用于標記目標物種為前景支,代表該物種的基因進化速率不同于其他物種;
所述正選擇篩選模塊根據支位點模型篩選分別計算零假設和備擇假設下的最大似然值,根據卡方檢驗篩選正選擇基因。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海歐易生物醫學科技有限公司,未經上海歐易生物醫學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110223562.2/1.html,轉載請聲明來源鉆瓜專利網。





