[發明專利]一種快速的批量化SNP/Indel引物設計的方法及系統有效
| 申請號: | 201910798281.2 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN110491446B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 田彩霞;董亞晨;劉露露 | 申請(專利權)人: | 上海美吉生物醫藥科技有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B30/10 |
| 代理公司: | 北京哌智科創知識產權代理事務所(普通合伙) 11745 | 代理人: | 何浩 |
| 地址: | 200120 上海市浦東新區中國(上海)*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 批量 snp indel 引物 設計 方法 系統 | ||
1.一種快速的批量化SNP/Indel引物設計的方法,其特征在于,包括:
對變異檢測獲得的VCF文件進行標記過濾;
根據標記過濾后所得的變異位點在參考基因組中的位置信息,提取引物設計的任務序列,并基于提取的任務序列結合設定的引物設計參數,生成選定的引物設計軟件輸入所需格式的輸入文件;
使用所述選定的引物設計軟件,根據所述輸入文件進行引物設計;
對所述選定的引物設計軟件完成引物設計后的輸出文件,按照預設格式要求進行格式整理,生成最終所需的結果文件;
所述對變異檢測獲得的VCF文件進行標記過濾,具體為:
將變異檢測獲得的VCF文件通過VCFtools軟件的minDP參數進行標記過濾,篩選出符合預設質量要求的變異位點;
所述根據標記過濾后所得的變異位點在參考基因組中的位置信息,提取引物設計的任務序列,并基于提取的任務序列結合設定的引物設計參數,生成選定的引物設計軟件輸入所需格式的輸入文件,具體為:
基于篩選出的變異位點的染色體位置信息以及變異的堿基詳情,提取到參考基因組中變異位點附近預設長度的序列作為引物設計的任務序列;
選擇設定的引物設計參數,對提取出的任務序列的格式進行轉化,生成選定的引物設計軟件輸入所需格式的輸入文件;
所述選定的引物設計軟件為primer3;
所述引物設計參數遵循以下原則:
長度為15-30bp,其有效長度不大于38bp;GC含量在40%-60%之間,PCR擴增中的復性溫度是較低Tm值引物的Tm值減去5-10℃,引物長度小于20bp時,其Tm恒等于4×(G+C)+2×(A+T);產物長度在預設范圍內,不小于100bp;
所述最終所需的結果文件中的內容包括:
序列編號;
標記在參考基因組序列上的位置;
標記編號,從1開始累加;
標記類型;
參考基因組的基因型;
突變基因型;
標記片段長度;
標記在參考基因組序列上的起始位置;
標記在參考基因組序列上的終止位置;
正向引物序列;
退火溫度;
引物的GC含量;
引物片段長度;
反向引物序列;
產物1的片段大小;
產物片段在參考基因組序列上的起始位置;
產物片段在參考基因組序列上的終止位置。
2.一種快速的批量化SNP/Indel引物設計的系統,其特征在于,包括:
信息獲取模塊,用于獲取需要分析的數據信息,所述數據信息包括進行引物設計的VCF文件、參考基因組fasta文件,以及引物設計參數;
標記過濾模塊,用于將變異檢測獲得的VCF文件通過VCFtools軟件的minDP參數進行標記過濾,篩選出符合預設質量要求的變異位點;
任務序列提取腳本,用于根據變異位點在參考基因組中的位置信息,提取引物設計的任務序列;
任務序列格式轉化腳本,用于結合選定的引物設計參數對提取出的任務序列的格式進行轉化,生成選定的引物設計軟件輸入所需格式的輸入文件;
引物設計模塊,用于使用所述選定的引物設計軟件,根據所述輸入文件進行引物設計;
輸出文件轉化腳本,用于對所述選定的引物設計軟件完成引物設計后的輸出文件,按照預設格式要求進行格式整理,生成最終所需的結果文件;
所述引物設計參數為流程默認提供或用戶自定義設置;
所述選定的引物設計軟件為primer3;
所述系統中所利用的工具包括一個Perl編寫的主程序代碼和兩個Perl和shell編寫的子程序代碼;
所述系統中所使用的每個子程序腳本獨立執行或嵌入到已有的數據分析流程中;
基于篩選出的變異位點的染色體位置信息以及變異的堿基詳情,提取到參考基因組中變異位點附近預設長度的序列作為引物設計的任務序列;
選擇設定的引物設計參數,對提取出的任務序列的格式進行轉化,生成選定的引物設計軟件輸入所需格式的輸入文件;
所述引物設計參數遵循以下原則:
長度為15-30bp,其有效長度不大于38bp;GC含量在40%-60%之間,PCR擴增中的復性溫度是較低Tm值引物的Tm值減去5-10℃,引物長度小于20bp時,其Tm恒等于4×(G+C)+2×(A+T);產物長度在預設范圍內,不小于100bp;
所述最終所需的結果文件中的內容包括:
序列編號;
標記在參考基因組序列上的位置;
標記編號,從1開始累加;
標記類型;
參考基因組的基因型;
突變基因型;
標記片段長度;
標記在參考基因組序列上的起始位置;
標記在參考基因組序列上的終止位置;
正向引物序列;
退火溫度;
引物的GC含量;
引物片段長度;
反向引物序列;
產物1的片段大小;
產物片段在參考基因組序列上的起始位置;
產物片段在參考基因組序列上的終止位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海美吉生物醫藥科技有限公司,未經上海美吉生物醫藥科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910798281.2/1.html,轉載請聲明來源鉆瓜專利網。





