[發(fā)明專利]一種針對基因數據的處理方法在審
| 申請?zhí)枺?/td> | 201710993693.2 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN109698010A | 公開(公告)日: | 2019-04-30 |
| 發(fā)明(設計)人: | 張春明;張中海;范彥輝;王炳琛;譚光明 | 申請(專利權)人: | 北京哲源科技有限責任公司 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30 |
| 代理公司: | 北京泛華偉業(yè)知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100095 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因數據 測序 參考基因 比對 并行 統計 | ||
本發(fā)明提供一種針對基因數據的處理方法及系統。所述方法,包括:1)根據設定的分片長度,對各個參考基因片段進行分片;2)將測序基因數據與所述參考基因片段進行比對,獲得各個測序基因數據所處的分片,并針對每個分片統計處于所述分片中的測序基因數據的數量;3)根據每個分片中的測序基因數據的數量,對包含有比其他分片更多測序基因數據的分片進行再次分片;其中,所獲得的各個分片被用于并行地對測序基因數據進行處理。
技術領域
本發(fā)明涉及基因測序技術,尤其涉及對通過基因測序技術而獲得的數據進行處理。
背景技術
隨著人們對于生命科學的探究,越來越多的研究開始關注于分析測定基因的序列,以用于諸如醫(yī)學方面的研究。例如,通過對血液或唾液進行分析以測定基因序列,從而預測罹患多種疾病的可能性,達到提前預防和治療的目的。隨著科學的發(fā)展,目前的基因測序技術已經發(fā)展到了第二代測序技術(Next-generation sequencing),其大體的操作流程包括:測序文庫的構建、錨定橋接、預擴增、單堿基延伸測序、以及數據分析。近些年來二代測序技術得到了迅速地發(fā)展,越來越多的研究顯示針對基因的數據分析過程逐漸成為所述技術的瓶頸。
在分析測定基因序列時,現有技術最常采用的方式是將通過基因測序技術而獲得的測序基因片段與預先確定的參考基因序列中的堿基進行比對,例如,研究在基因片段的同一位置上攜帶不同的堿基是否會影響某種疾病的發(fā)生。因此為了方便使用和計算,現有技術在執(zhí)行數據分析時,為了降低單個樣本從數據產生到變異位點分析完成的響應時間,大多數現有技術采用了對數據進行劃分,并且并行地在多機上針對所述數據進行計算。通過所述劃分將通過基因測序技術而獲得的數據劃分為多個部分,在對所述數據進行諸如分析和調度的處理過程時,針對每一部分的數據設置一個任務,使得所述任務獨立地處理所述部分的數據。例如,將一個參考基因序列劃分為等長的多個區(qū)間,并將通過基因測序技術而獲得的數據中落入到每個區(qū)間內的測序基因片段作為一個數據部分以進行并行計算。
然而,在實際的使用過程中,采集到的測序基因片段的數量在各個區(qū)間上的分布往往是不均勻的,例如在幾個特定區(qū)間內更容易采集到堿基數據,而在其余區(qū)間上比較不容易采集到堿基數據,這使得大部分的堿基數據集中在幾個特定的區(qū)間內,而在其他區(qū)間中僅分布了少量的堿基數據。這種情況在最常用的基因測序技術全基因組重測序(WGS)和全外顯子組測序(WES)中尤為明顯??梢?,上述方式并不能實現將采集到的全部測序基因數據劃分為數量相等的多個部分。換句話說,通過上述方式所獲得的用于并行計算的各個數據部分的大小差異明顯、局部數據傾斜、負載不均衡。在執(zhí)行并行計算時由于負載的不均衡會產生的嚴重的“長尾效應”,即完成數據處理的最終響應時間取決于負載最大、處理速度最慢的一個區(qū)間,而這會嚴重地影響到系統處理基因數據的響應時間。
此外,在執(zhí)行針對基因數據的處理過程中,在完成了針對各個區(qū)間的數據的處理后還需要對所獲得的結果進行合并,這使得在并行程度非常高的處理方案中,往往會針對基因數據進行多次的區(qū)間劃分以及多次的合并,這樣會導致很大的網絡和磁盤開銷,降低了流程的整體性能和集群的資源利用率。在一個基因數據處理流程中,往往使用多種類似的算法或者需要重復地使用上述算法,如果在所述處理流程中每執(zhí)行一個步驟均需要對基因數據進行劃分和合并,則會對基因數據處理系統帶來極大的壓力。
發(fā)明內容
因此,本發(fā)明的目的在于克服上述現有技術的缺陷,提供一種針對基因數據的處理方法,包括:
1)根據設定的分片長度,對各個參考基因片段進行分片;
2)將測序基因數據與所述參考基因片段進行比對,獲得各個測序基因數據所處的分片,并針對每個分片統計處于所述分片中的測序基因數據的數量;
3)根據每個分片中的測序基因數據的數量,對包含有比其他分片更多測序基因數據的分片進行再次分片;
其中,所獲得的各個分片被用于并行地對測序基因數據進行處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京哲源科技有限責任公司,未經北京哲源科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710993693.2/2.html,轉載請聲明來源鉆瓜專利網。





