[發明專利]快速DNA測序數據分析平臺的數據內存和硬盤分流存儲方法在審
| 申請號: | 201711484262.X | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108197433A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 張翔;楊文嫻;俞容山 | 申請(專利權)人: | 廈門極元科技有限公司 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22;G06F19/28 |
| 代理公司: | 廈門市新華專利商標代理有限公司 35203 | 代理人: | 李寧 |
| 地址: | 361000 福建省廈門市中國(福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算機內存 測序數據 分析平臺 基因測序 數據內存 索引數據 快速DNA 硬盤 存儲 分流 算法分析 序列比對 硬盤文件 放入 基因 | ||
本發明公開一種快速DNA測序數據分析平臺的數據內存和硬盤分流存儲方法,包括:將序列比對數據分成索引數據和其他數據,將索引數據全部存放于計算機內存;對其他數據,按照一定的比例,以基因段為單位,分別放入計算機內存和和硬盤文件中。本發明降低了IMP算法分析海量基因測序數據時對計算機內存擴大的需求,同時降低了基因測序平臺的搭建成本。
技術領域
本發明涉及數據存儲技術領域,特別涉及快速DNA測序數據分析平臺的數據內存和硬盤分流存儲方法。
背景技術
隨著人類基因組計劃的順利實施和測序技術的快速發展,測序的成本顯著降低,而測序速度得到了顯著提高,人類全基因組測序的測序成本已經降至$1000以內,DNA序列的數據量呈指數增長。如何快速的利用、表達這些數據,進而分析與解釋基因序列里的潛在問題,從海量數據里發掘出對人類有利的信息,成為一個迫切需要解決的問題。應用越來越廣泛的人類全基因組測序(WGS)產生的序列數據、以及對海量序列數據進行快速分析處理的持續需求,使數據分析形成了一個新的技術瓶頸,對二代測序技術的臨床應用成為制約。
同時,為了推動精準醫療,二代測序技術的臨床應用對數據分析工具有如下的要求。第一,對程序運行時間上的要求,數據分析方法速度要快。由于二代測序技術產出數據的通量越來越高,檢測數據分析方法的速度需要與之相匹配,才能夠達到快速確認,快速應對的目的。第二,對數據的私密性的要求,基因數據的隱秘性和安全性需要得到保證。第三,分析精度上的要求。
目前在國際上生物信息學領域最廣泛使用的短讀長序列比對的工具包括SOAP3-dp,BWA-aln,BWA-mem,Bowtie等,最常用的變異檢測工具包括GATK HaplotypeCaller,Samtools-mpileup ,freebayes等。這些工具整個流程的實現是采用文件I/O系統,序列比對將比對結果導出到硬盤,作為后續處理模塊的輸入,因而在數據讀寫方面耗費了大量的時間。
IMP測序數據分析平臺采用的是內存存儲與計算技術,即在IMP測序數據分析平臺的整個數據分析流程中,所有的數據處理都是基于內存的數據存儲和計算,從而避免了在流程的多個處理步驟之間使用基于文件的中間結果的導入導出,減少了I/O開銷,由于所有的序列比對記錄經過壓縮,全部以共享內存的方式實現各進程/線程間的通信,將數據處理速度加快了100倍左右,極大的提高了運行效率。
但是,基因數據的存儲量非常大,以30倍深度的人類全基因組數據來說,輸出的SAM文件達到200GB,IMP經過數據壓縮后,可以在256GB的服務器上完全用內存來存儲所有的序列比對數據,省去了I/O存儲開銷,但是當系統內存大量被用于存儲基因數據時,系統的運行效率開始變慢。同時,隨著基因數據量的加大,內存的需求量也隨之增加,如處理50倍甚至更高深度的WGS數據時,需要把系統內存增加到484GB甚至512GB,因此IMP測序數據分析平臺能夠同時處理的數據量受限于工作站的硬件配置,要求系統配備大容量,內存基因分析成本大幅增加了。
有鑒于此,本發明人特別研制出一種優化的快速DNA測序數據分析平臺的數據內存和硬盤分流存儲方法,本案由此產生。
發明內容
本發明的目的在于提供快速DNA測序數據分析平臺的數據內存和硬盤分流存儲方法,以降低IMP算法分析海量基因測序數據時對計算機內存擴大的需求,以及降低基因測序平臺的搭建成本。
為了實現上述目的,本發明的技術方案如下:
快速DNA測序數據分析平臺的數據內存和硬盤分流存儲方法,包括:
將序列比對數據分成索引數據和其他數據,其中索引數據是指在數據分析處理的過程中需要反復讀寫的數據,且索引數據占所有數據的少部分,其他數據是指只需要一次性讀寫的數據;再對前述分類的數據按如下方式進行處理:
1)將索引數據全部存放于計算機內存;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門極元科技有限公司,未經廈門極元科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711484262.X/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





