[發(fā)明專利]去除宏基因組測序數(shù)據(jù)中人源基因序列的方法有效
| 申請?zhí)枺?/td> | 201810041369.5 | 申請日: | 2018-01-16 |
| 公開(公告)號: | CN108197434B | 公開(公告)日: | 2020-04-10 |
| 發(fā)明(設(shè)計)人: | 蘇政;肖衛(wèi)民;蘇聞;趙崇濤;黃瑞坤 | 申請(專利權(quán))人: | 深圳市泰康吉音生物科技研發(fā)服務(wù)有限公司 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B30/20 |
| 代理公司: | 東莞市神州眾達(dá)專利商標(biāo)事務(wù)所(普通合伙) 44251 | 代理人: | 劉漢民 |
| 地址: | 518000 廣東省深圳市福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 去除 宏基 序數(shù) 中人 基因 序列 方法 | ||
本發(fā)明公開了一種去除宏基因組測序數(shù)據(jù)中人源基因序列的方法,該方法包括以下步驟:通過千人基因組計劃樣本的原始測序數(shù)據(jù)構(gòu)建參考基因集,在得到千人基因組數(shù)據(jù)的高質(zhì)量的測序read后,使用基因組組裝軟件將其組裝成較長的基因片段,后續(xù)作為參考序列與測序read進行比對;提取來源于NCBI數(shù)據(jù)庫中所有非腫瘤樣本中的基因片段數(shù)據(jù)作為NCBI Bioproject的基因片段數(shù)據(jù)用作后續(xù)處理;將千人基因組的數(shù)據(jù)與NCBI Bioproject的數(shù)據(jù)合并,去冗余后變成非冗余的基因片段數(shù)據(jù)集;將非冗余的基因片段數(shù)據(jù)集中的病毒基因組序列找出,從基因片段序列中去除;將病毒基因序列組去除后的基因片段序列作為去除宏基因組測序數(shù)據(jù)中人源序列的參考基因組。
技術(shù)領(lǐng)域
本發(fā)明涉及基因工程領(lǐng)域,尤其涉及一種去除宏基因組測序數(shù)據(jù)中人源基因序列的方法。
背景技術(shù)
宏基因組測序目前可應(yīng)用于腸道菌群狀態(tài)監(jiān)測、感染病原微生物檢測等方面,相對于其他技術(shù),其具有檢測通量高,檢測覆蓋面廣,不需要提前預(yù)知微生物種類等優(yōu)點。隨著高通量基因測序成本的快速下降,測序速度的快速提升,宏基因組測序在微生物檢測方面的應(yīng)用會越來越廣泛。
宏基因組測序樣品的主要來源為人體上不同部位的體液或組織,一般在提取樣品中的DNA后,對提取出的DNA進行全基因組或基因組部分區(qū)域的基因測序(下文中的宏基因組測序只指微生物全基因組測序)。由于樣品來源于人體組織,提取的DNA中往往含有一定比例的人源DNA。在部分組織的樣本中,如血漿游離DNA、肺泡灌洗液DNA中,人源DNA往往占有很高的比例,通常可達(dá)90%以上,人源DNA的存在會對微生物DNA的分析造成干擾,因此在分析微生物DNA之前通常會使用生物信息學(xué)方法將人源DNA去除。
現(xiàn)有去除人源DNA的方法主要是將測序得到基因序列(read)比對到人參考基因組序列上,目前使用的參考基因組為GRCh37或GRCh38,若比對成功則認(rèn)為該read來源于人的基因組,將其舍去不進行后續(xù)的微生物相關(guān)分析。但現(xiàn)有方法存在一些不足:
不足1:
由于參考現(xiàn)有的參考基因組(GRCh37或GRCh38)僅來源于數(shù)個個體的基因組數(shù)據(jù),而人的基因組具有種族特異性,每個種族的個體都存在其特有的基因突變,絕大部分未包含于現(xiàn)有的參考基因組中。另外,除了MHC區(qū)域等高度變異的區(qū)域,現(xiàn)有參考基因組上的絕大多數(shù)區(qū)域都為單倍體,其中包括大量含有多態(tài)性位點的區(qū)域,現(xiàn)有的人參考基因組上未能包括這些基因變異信息。這些變異的存在,有可能造成部分人源的read無法成功比對上參考基因組,而被錯誤地認(rèn)為其為微生物的序列。當(dāng)測序的DNA中,人源的DNA占的比例很高(如98%以上),少量的人源read錯誤地作為微生物read進行分析即會對后續(xù)的分析結(jié)果帶來重大影響。
不足2:
人的基因組上存在大量的重復(fù)序列,即使近年來不同測序技術(shù)的出現(xiàn),使我們可以測出人基因組上大部分的重復(fù)序列數(shù)據(jù),但仍有一部分的重復(fù)序列未能成功測出(如Y染色體上的大量區(qū)域),它們即表現(xiàn)為現(xiàn)有人參考基因組上大量的N區(qū)。來源于這些區(qū)域的read無法比對回人的參考基因組,也有可能會被錯誤地作為微生物的read進行分析,造成后續(xù)分析的假陽性。
因此需要一種新的方法,將人源基因序列更完整準(zhǔn)確地去除。
發(fā)明內(nèi)容
針對上述技術(shù)中存在的不足之處,本發(fā)明提供一種去除宏基因組測序數(shù)據(jù)中人源基因序列的方法,該方法解決了現(xiàn)有與人參考基因組比對方法去除人源基因組序列不夠徹底,造成后續(xù)微生物分析較高假陽性的問題。
為實現(xiàn)上述目的,本發(fā)明提供一種去除宏基因組測序數(shù)據(jù)中人源基因序列的方法,包括以下步驟:
步驟1,通過千人基因組計劃樣本的原始測序數(shù)據(jù)構(gòu)建參考基因集,將其下載后,先對數(shù)據(jù)進行質(zhì)量控制及低質(zhì)量值數(shù)據(jù)的過濾后得到高質(zhì)量的數(shù)據(jù),用于測序read的比對,從而將人源read更好地去除;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市泰康吉音生物科技研發(fā)服務(wù)有限公司,未經(jīng)深圳市泰康吉音生物科技研發(fā)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810041369.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 序數(shù)鐘表
- 一種時序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時序數(shù)據(jù)流分割方法、裝置及其存儲介質(zhì)
- 一種工業(yè)時序數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種時序數(shù)據(jù)的平滑處理方法和裝置
- 時序數(shù)據(jù)多層次語義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時序數(shù)據(jù)異常檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基因測序數(shù)據(jù)排序方法、集成電路及排序設(shè)備





