[發明專利]去除宏基因組測序數據中人源基因序列的方法有效
| 申請號: | 201810041369.5 | 申請日: | 2018-01-16 |
| 公開(公告)號: | CN108197434B | 公開(公告)日: | 2020-04-10 |
| 發明(設計)人: | 蘇政;肖衛民;蘇聞;趙崇濤;黃瑞坤 | 申請(專利權)人: | 深圳市泰康吉音生物科技研發服務有限公司 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B30/20 |
| 代理公司: | 東莞市神州眾達專利商標事務所(普通合伙) 44251 | 代理人: | 劉漢民 |
| 地址: | 518000 廣東省深圳市福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 去除 宏基 序數 中人 基因 序列 方法 | ||
1.一種去除宏基因組測序數據中人源基因序列的方法,其特征在于,包括以下步驟:
步驟1,通過千人基因組計劃樣本的原始測序數據構建參考基因集,將其下載后,先對數據進行質量控制及低質量值數據的過濾后得到高質量的數據,用于測序read的比對,從而將人源read更好地去除;
步驟2,在得到千人基因組數據的高質量的測序read后,使用基因組組裝軟件將其組裝成較長的基因片段,后續作為參考序列與測序read進行比對,組裝完成后,挑選出長度大于150bp的基因片段作為千人基因組的基因片段進行后續處理;
步驟3,提取來源于NCBI數據庫中所有非腫瘤樣本中的基因片段數據作為NCBIBioproject的基因片段數據用作后續處理;
步驟4,對千人基因組的數據和NCBI Bioproject的數據均進行去冗余處理后,再將千人基因組的數據與NCBI Bioproject的數據合并,去冗余后變成非冗余的基因片段數據集;
步驟5,將非冗余的基因片段數據集中的的病毒基因組序列找出,從基因片段序列中去除;
步驟6,將病毒基因序列組去除后的基因片段序列作為去除宏基因組測序數據中人源序列的參考基因組。
2.根據權利要求1所述的去除宏基因組測序數據中人源基因序列的方法,其特征在于,所述步驟1的具體方法為:使用公開的千人基因組計劃的pilot研究中180個樣本低深度全基因組測序數據,并以之構建了參考基因組,來解決現有參考基因組未包含足夠的人群與個體差異的基因突變信息的問題;構建參考基因集使用的是千人基因組計劃樣本的原始測序數據,將其下載后,先對數據進行質量控制及低質量值數據的過濾,以保證數據的可靠性。
3.根據權利要求2所述的去除宏基因組測序數據中人源基因序列的方法,其特征在于,所述在進行質量控制的過程中需要進行參數設置:
允許的序列標簽的最小長度為上機測序設定長度的0.7倍;
允許的最小GC含量為25%;
允許的最大GC含量為75%;
序列標簽所有堿基中最小質量值至少為10;
序列標簽所有堿基平均質量值至少為20;
最多允許10%的堿基序列為'N';
其他參數使用默認值,其中read_length為上機測序設置的read的讀長。
4.根據權利要求1所述的去除宏基因組測序數據中人源基因序列的方法,其特征在于,所述步驟2中基因組組裝軟件為公開的SOAPdenovo2,該過程中需要的基因片段文件中的參數設置為:
最大的序列標簽(read)長度為200bp;
只進行基因片段的組裝(asm_flags=1)
定位基因片段需要的最少的雙末端序列標簽數為3;
定位序列標簽所需的最小的比對長度為32;
而長如片段平均長度與是否取反向互補序列進行組裝則根據文庫的情況具體設置,隨后運行SOAPdenovo2命令進行序列組裝,kmer大小設置為25。
5.根據權利要求1所述的去除宏基因組測序數據中人源基因序列的方法,其特征在于,所述步驟3中為避免數據特點和分析方法單一造成的數據偏向性,使用公開的多個不同來源并由不同分析方法處理的數據作為參考數據集,其中包括來源于NCBI數據庫的Bioproject的項目的數據,去冗余使用開源的工具為Redundans,相關的參數為:
去冗余的相似度閾值為0.97;
不同基因片段的重疊比例閾值為0.10;
重疊長度的閾值為100bp;
其余參數使用默認值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市泰康吉音生物科技研發服務有限公司,未經深圳市泰康吉音生物科技研發服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810041369.5/1.html,轉載請聲明來源鉆瓜專利網。





