[發(fā)明專利]一種基因序列比對的云計算加速方法有效
| 申請?zhí)枺?/td> | 201710880756.3 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107704728B | 公開(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計)人: | 董守斌;劉檉;張鈴啟 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基因 序列 計算 加速 方法 | ||
1.一種基因序列比對的云計算加速方法,其特征在于,包括以下步驟:
1)對基因測序儀的下機數(shù)據(jù)文件Fastq進行預(yù)處理,以保證數(shù)據(jù)分發(fā)時數(shù)據(jù)的完整性;對基因測序儀的下機數(shù)據(jù)文件Fastq進行預(yù)處理包括讀取數(shù)據(jù),修改與合并多個輸入文件及將數(shù)據(jù)保存至分布式文件系統(tǒng)或共享文件系統(tǒng)上;所述讀取數(shù)據(jù),合并多個輸入文件及將數(shù)據(jù)保存至分布式文件系統(tǒng)或共享文件系統(tǒng)的預(yù)處理步驟采用流水線模式優(yōu)化;
所述修改與合并多個輸入文件,包括以下步驟:
1.1)對于Fastq文件,在一個數(shù)據(jù)單元內(nèi),統(tǒng)一使用不可見字符替換所有的回車字符,不同數(shù)據(jù)單元之間,以回車字符進行標記,其中,將以Fastq文件中每四行組成的一條讀序完整信息稱作Fastq文件的一個數(shù)據(jù)單元,而對于雙末端測序,成對的讀序稱為修改后文件的一個數(shù)據(jù)單元;
1.2)將兩個Fastq文件中一一對應(yīng)的數(shù)據(jù)單元相互連接;
1.3)重復(fù)步驟1.1)、1.2),直至Fastq文件處理完畢,并生成一個新的數(shù)據(jù)文件;
2)通過Spark對修改后的基因測序數(shù)據(jù)完成多節(jié)點分發(fā);
針對步驟1.1)中以回車字符為不同數(shù)據(jù)單元間的標記這前提,選用按行讀取的SparkAPI對數(shù)據(jù)進行讀取,Spark API將會承擔對數(shù)據(jù)進行多節(jié)點分發(fā)的操作;
3)對每個節(jié)點所獲得的修改后的基因數(shù)據(jù),恢復(fù)其原有Fastq文件格式;
4)每個節(jié)點通過Spark中的pipe算子執(zhí)行基因序列比對程序腳本,運行結(jié)果存儲在Spark的彈性分布式數(shù)據(jù)集RDD中;
5)運行結(jié)果保存在分布式文件系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的一種基因序列比對的云計算加速方法,其特征在于,在步驟3)中,對每個節(jié)點的處理數(shù)據(jù)恢復(fù)原有數(shù)據(jù)形態(tài),以下操作二選一:
①將所有數(shù)據(jù)中的不可見字符重新恢復(fù)為回車字符,恢復(fù)后的中間數(shù)據(jù)寫入各個節(jié)點本地硬盤;
②將所有數(shù)據(jù)中的不可見字符重新恢復(fù)為回車字符,恢復(fù)后的中間數(shù)據(jù)保存在Spark的RDD中。
3.根據(jù)權(quán)利要求1所述的一種基因序列比對的云計算加速方法,其特征在于:在步驟4)中,所述pipe算子實現(xiàn)在Spark中調(diào)用外部程序處理RDD中數(shù)據(jù),處理后數(shù)據(jù)保存在新的RDD中,其中,pipe算子調(diào)用的外部程序即為基因序列比對程序,其參數(shù)為基因序列比對程序執(zhí)行腳本的保存路徑。
4.根據(jù)權(quán)利要求3所述的一種基因序列比對的云計算加速方法,其特征在于:所述基因序列比對程序為BWA。
5.根據(jù)權(quán)利要求1所述的一種基因序列比對的云計算加速方法,其特征在于:在步驟5)中,使用hadoop API將含有基因序列比對程序運行結(jié)果的RDD保存于分布式文件系統(tǒng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710880756.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





