[發明專利]一種基因序列比對的云計算加速方法有效
| 申請號: | 201710880756.3 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107704728B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 董守斌;劉檉;張鈴啟 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 序列 計算 加速 方法 | ||
本發明公開了一種基因序列比對的云計算加速方法,包括步驟:1)對基因測序儀的下機數據文件Fastq進行預處理,以保證數據分發時數據的完整性;2)通過Spark對修改后的基因測序數據完成多節點分發;3)對每個節點所獲得的修改后的基因數據,恢復其原有Fastq文件格式;4)每個節點通過Spark中的pipe算子執行基因序列比對程序腳本,運行結果存儲在Spark的彈性分布式數據集RDD中;5)運行結果保存在諸如HDFS、Amazon、S3等分布式文件系統。本發明采用一種更簡單的方式將比對工具運行在Spark框架上,不僅可以很好的利用Spark的機制進行多機計算的調度、數據的分發、監控和容錯,而且相較于JNI的實現方式,開發門檻低,代碼維護簡單,性能更好,擴展性可接近線性。
技術領域
本發明涉及生物基因數據處理領域,尤其是指一種基因序列比對的云計算加速方法,具體是基于云計算框架加速通用基因序列比對程序的方法。
背景技術
隨著基因二代測序技術(Next generation sequencing,NGS)的發展,單個基因測序成本已下降至1000美元以下。與此同時,基因測序的數據正呈現爆炸式增長,以IlluminaHiSeqXTM Ten為例,一次運行可以產生60億條序列信息。有關數據表明,每6個月基因數據量就會翻一番,而依照這個增長速度,到2020年,每年產生的基因數據將達到1個exabase(每4個base等于1個字節),而2025年,這個數據將增長至每年1個zettabase。基因測序數據量的增長及成本的降低都在以一個遠超摩爾定律的速度在發展,如何快速處理所產生的基因數據正面臨嚴峻的挑戰。
無論采用何種測序技術,基因序列比對分析都是理解測序結果數據的最重要一步,也是目前耗時最長步驟之一。序列比對是將測序所得的短序列與已有的參考基因序列進行序列比對,尋找測序結果在參考基因序列上的精確定位。在二代測序技術中,根據測序方法的不同,又可分為單端測序(Single-read)與雙末端測序(Paired-end/Mate-paired)兩類。單端測序時將基因組隨機打斷,再對每個片段進行測序,最終只產生單個測序結果文件。雙端測序則是對一個長的序列測得其兩端序列,最終將產生互成一對的兩個測序結果文件。現在的大多數二代測序平臺都采用Fastq格式保存下機數據,測序時的一條讀序(read),在Fastq文件中將以序列名,序列,“+”,質量分數四行數據描述。在雙端測序得到的兩個Fastq文件中,序列名相同,位置上一一對應的兩條讀序巧好為測序時同一個基因片段的兩端序列。常用于對基因二代測序數據進行比對的工具有Bowtie2、BWA、MAQ、SOAP2等等,其中又以BWA軟件在基因序列比對中應用的最為廣泛。而這些成熟的基因序列的比對工具都有兩個共同特點,即僅可在單臺計算機上運行。當面對二代測序技術的高速發展,人們更希望能在多機上運行序列比對程序,以獲取更高的并行效率及擴展性,使基因序列數據的處理可以在一個合理的時間范圍內完成。目前在這個問題上已有的解決方案可大致分為以下兩種:
一是采用MPI方式在多機上運行序列比對程序,例如pBWA和pMap。而如人們所知,MPI的效率雖高,但開發難度極大,且任何一個節點出問題都將導致整個任務的失敗,容錯上更多的需要人為保證。同時MPI的性能優化更多是針對超算硬件進行優化,而對于云上所采用的常用硬件,MPI做的優化通常不會有太大效果。
二是在Spark框架上采用JNI調用BWA軟件,如SparkBWA及GATK4.0工具包中的BwaSpark都是采用了這類方案。相比于MPI解決方案,Spark方法的容錯性由Spark框架本身保證,開發難度較低,但JNI的方式開發難度不小,且性能一般,有實驗顯示Java調用JNI空函數與Java調用Java空方法性能存在5倍左右的差距,而額外的性能優化還需要開發者對JVM機制有足夠的了解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710880756.3/2.html,轉載請聲明來源鉆瓜專利網。





