[發明專利]基因測序數據讀取方法及系統有效
| 申請號: | 201210592061.2 | 申請日: | 2012-12-29 |
| 公開(公告)號: | CN103049680A | 公開(公告)日: | 2013-04-17 |
| 發明(設計)人: | 孟金濤;魏延杰;成杰峰;馮圣中 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20;G06F17/21 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 宋鷹武 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因 序數 讀取 方法 系統 | ||
技術領域
本發明涉及生物信息學技術領域,具體涉及一種基因測序數據讀取方法及系統。
背景技術
生物大分子的測序自始至終貫穿著生物信息學的發展,尤其是對核酸與蛋白質的測序。生物基因組中包括所有的細胞結構以及生命活動的遺傳信息,從根本上指導著生物體的快速發育。精確和實時獲取生物體的遺傳信息可以有效的指引生命科學的研究。測序技術可以快速獲取DNA上的遺傳信息,全面闡釋基因組的多樣性和復雜性,在生物信息研究中扮演著越來越重要的角色。
在最近的幾年中,新一代的測序技術給生物信息學帶來了巨大變革,在測序原理、操作細節、技術擴展等方面取得了顯著發展。相對于傳統的Sanger測序法,新一代測序技術平臺避免了克隆過程,直接使用接頭進行并行PCR、測序反應,因此其數據量得到大幅提高,可以在更短的時間內對更多的DNA進行測序。如使用Sanger測序法繪制第一張人類基因組圖譜前后共耗費13年時間和幾百臺測序儀,而現在新一代測序可以在幾個月內時間內完成該工作。此外,新一代測序的成本也大大降低。
由于基因組源序列的長度從10萬堿基(如豬痘病毒、大腸桿菌)到10億堿基(如黃種人、黃瓜、熊貓基因組)大小不等,而復雜環境(如海水、人體大腸等)宏基因組數據甚至會達到上百億堿基,而對這些樣本進行測序其覆蓋度要達到30-100倍,這使得產生的基因序列片段劇增。對海量序列數據進行處理會消耗巨大的內存,因此常使用并行處理的方式對海量序列數據進行分割,現有技術中進行基因測序數據分割前要選擇合適的序列分割策略,避免將一個序列分割到兩個不同的文件塊中。
發明內容
本發明旨在解決上述現有技術中存在的問題,提出一種基因測序數據讀取方法,包括如下步驟:
步驟a:對用戶參數進行解析,確定任務個數;
步驟b:根據任務個數將測序數據分割成相同大小的文件塊;
步驟c:對每個文件塊的起始地址和終止地址進行調整;
步驟d:各任務對調整后的文件塊結果進行讀取。
優選地,在所述步驟a之前還包括如下步驟:對任務進行初始化,在所有節點之間建立連接,并對節點信息、任務信息進行統計。
優選地,所述步驟b具體為:根據任務個數將測序數據分割成相同大小的文件塊,得到每個文件塊的起始位置和終止位置;所述步驟c具體為:將步驟b所得每個文件塊的起始位置調整為所述起始位置后第一個序列的起始點;將步驟b所得每個文件塊的終止位置調整為所述終止位置后第一個序列的起始點,或調整為所述終止位置后的文件終止符。
優選地,所述步驟d為各任務對調整后的文件塊結果進行多視口并行文件讀取。
優選地,所述任務為進程,或程序中的線程。
優選地,所述進程為MPI進程。
優選地,所述的用戶參數包括硬件性能、基因測序數據總大小、同源基因參考序列長度。
優選地,所述基因測序數據的格式為FASTA格式或FASTQ格式。
本發明還提供了一種基因測序數據讀取系統,包括:
參數解析單元,用以對用戶參數進行解析,確定任務個數;
分割單元,用以根據任務個數將測序數據分割成相同大小的文件塊;
調整單元,用以對每個文件塊的起始地址和終止地址進行調整;
結果讀取單元,用以各任務對調整后的文件塊結果進行讀取。
優選地,所述系統還包括:初始化單元,用以對任務進行初始化,在所有節點之間建立連接,并對節點信息、任務信息進行統計。
本發明另提供了一種基因測序數據分析裝置,所述基因測序數據分析裝置設有上述基因測序數據讀取系統。
本發明的有益效果在于,實現了基因測序數據的并行讀取,且各個文件塊大小均勻,還避免了將一個序列分割到兩個不同的文件塊中。
附圖說明
圖1是本發明實施例1提供的基因測序數據讀取方法的實現流程圖。
圖2是FASTA數據格式示例圖。
圖3是FASTQ數據格式示例圖。
圖4是本發明實施例2提供的基因測序數據讀取方法的實現流程圖。
圖5是本發明實施例2中的多視口并行讀取示意圖。
圖6是本發明應用例1的文件塊中read數量分布圖。
圖7是本發明應用例2中讀取時間隨任務數量變化圖。
圖8是本發明實施例4提供的基因測序數據讀取系統的結構框圖。
圖9是本發明實施例5提供的基因測序數據讀取系統的結構框圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210592061.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型的可伸縮的過濾裝置
- 下一篇:一種模塊式濾芯
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





