[發明專利]一種基因多序列比對方法、設備和系統在審
| 申請號: | 202210096587.5 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114420207A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 劉思嘉;田菲;陳生學;田得紅;王賀崐元;趙凱 | 申請(專利權)人: | 中國科學院西北高原生物研究所 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30 |
| 代理公司: | 成都高遠知識產權代理事務所(普通合伙) 51222 | 代理人: | 鄭勇力;張娟 |
| 地址: | 810000 *** | 國省代碼: | 青海;63 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 序列 方法 設備 系統 | ||
1.一種基因多序列比對方法,其特征在于,包括如下步驟:
步驟1,設置模板信息,所述模板信息包括待分析基因的模板序列和保守基序的信息;
步驟2,根據步驟1的模板信息作為參照,對待分析序列進行校正和多序列全局比對,形成數據集。
2.按照權利要求1所述的基因多序列比對方法,其特征在于:步驟1中,所述模板信息是通過待分析基因的正義鏈簡并序列獲得的。
3.按照權利要求1所述的基因多序列比對方法,其特征在于:步驟2中,進行校正和多序列全局比對的具體步驟如下:
步驟2.1,根據步驟1的模板信息作為參照,識別待分析序列中的反義鏈序列,將所述反義鏈序列處理為正義鏈序列;
步驟2.2,根據步驟1的模板信息作為參照,識別經過步驟2.1處理后的待分析序列中的引物、接頭和終止密碼子之后的測序載體序列,并將所述測序載體序列剪切舍棄;
步驟2.3,對經過步驟2.2處理后的待分析序列進行多序列全局對比,形成比對后的數據集;
步驟2.4,根據步驟1的模板信息作為參照,校對步驟2.3得到的數據集,填補5’-和3’-端殘缺的序列,刪除非比對區序列;
步驟2.5,對經過步驟2.4處理后的數據集進行多序列全局對比,識別包含測序錯誤位點的序列樣本,刪除包含測序錯誤位點的序列樣本或對包含測序錯誤位點的序列樣本進行調整。
4.按照權利要求3所述的基因多序列比對方法,其特征在于:步驟2.5中,識別包含測序錯誤位點的序列樣本的方法為:對經過步驟2.4處理后的數據集中的序列樣本的每個位點基因型或缺失型的出現頻率進行統計,若某個位點的某種基因型或缺失型只出現一次,則具有該基因型或缺失型的該位點為測序錯誤位點。
5.按照權利要求1所述的基因多序列比對方法,其特征在于:步驟2中,采用MATFF、CLUSTALX、MEGA或MUSCLE進行多序列全局比對。
6.按照權利要求1所述的基因多序列比對方法,其特征在于:所述待分析基因為裂腹魚物種的cytb基因;
所述待分析基因的模板序列為其間并序列,所述間并序列如SEQ ID NO.1所述;
所述保守基序的數量為三個,序列分別為AAAATTGCTAA、ATTGCCCG和GTAATTAC;
所述保守基序的位置為從5’開始的第34位至第44位、第292位至第299位、第433位至第440位。
7.按照權利要求1所述的基因多序列比對方法,其特征在于:所述待分析序列和數據集的文件格式為FASTA格式。
8.一種計算機設備,用于基因多序列比對,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于:所述處理器執行所述程序時實現如權利要求1-7任一項所述的基因多序列比對方法。
9.一種用于基因多序列比對的系統,其特征在于,包括:
權利要求8所述的計算機設備;
服務器,用于存儲和傳輸所述待分析序列的原始數據。
10.一種計算機可讀存儲介質,其特征在于:其上存儲有用于實現權利要求1-7任一項所述的基因多序列比對方法的計算機程序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院西北高原生物研究所,未經中國科學院西北高原生物研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210096587.5/1.html,轉載請聲明來源鉆瓜專利網。





