[發明專利]應用于分布式基因組分析的快速I/O系統在審
| 申請號: | 201810102016.1 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108280214A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 馬志強;薛紅;顧磷;李威潔 | 申請(專利權)人: | 馬志強 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 王虎;梁順珍 |
| 地址: | 中國香港新界*** | 國省代碼: | 中國香港;81 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算節點 基因組分析 文件系統 掛載 集群 寫入 分布式文件系統 傳統文件系統 讀取 分布式計算 基因組數據 存儲系統 臨時存儲 數據節點 寫入文件 自動保存 進程 耦合 多節點 高通量 磁盤 代理 副本 應用 存儲 退出 名字 分析 | ||
本發明公開了一種應用于分布式基因組分析的快速I/O系統,它使用分布式文件系統HDFS作為基本存儲系統,并利用每個節點的本地磁盤,綜合提高多節點分布式計算中的基因組數據的高通量的I/O功能;HDFS集群與基因組分析計算節點耦合;其中一個計算節點作為HDFS的名字節點;所有計算節點用作HDFS數據節點;寫入文件系統的數據在集群中的3個不同節點上存儲3個副本;在每個計算節點上,啟動NFS代理;在每個計算節點上,通過NFS代理將HDFS掛載為文件系統MF;在每個計算節點上,本地文件系統LF用作臨時存儲;計算節點上的分析進程像讀取傳統文件系統一樣從掛載文件系統MF讀取數據;對于要寫入的數據,將數據寫入LF;在LF中,由進程生成的文件將在進程退出之前自動保存到MF。
技術領域
本發明涉及存儲系統技術領域,尤其涉及一種應用于分布式基因組分析的快速I/O系統。
背景技術
基因組數據,比如人的全基因組數據,數據量是巨大的。所以對基因組的分析過程需要讀取和寫入大量的數據,包括輸入,輸出和中間文件。傳統的集中式I/O數據處理系統,如NFS和SAN,便成為基因組數據分析的瓶頸。
昂貴的存儲設備可用于提高I/O性能。但是,并非在所有需求中都有負擔如此成本的預期。而且,如果集群擴展到1000個節點,這可能會成為技術上的瓶頸。
分布式系統,比如GFS[1]和HDFS[2],可以以低成本提供高I/O。同時,它們可以擴展到在1000個節點上運行。然而,分布式文件系統的語義與傳統的本地文件系統的語義是不同的。所以使用傳統文件系統作為接口的基因組分析工具可能無法很好地與分布式文件系統協作。
發明內容
該方法使用分布式文件系統HDFS作為基本的存儲系統,在此基礎上構建了用于基因組數據在多服務器節點上的分布式計算的高通量的I/O功能。
相比集中式單拷貝存儲系統,本發明將生成數據于3個節點上存儲3個拷貝,讓后續步驟可以以3倍I/O通量讀取。
系統資源得到更有效地使用。在計算過程中,除了開始和結束階段需要處理大量的讀取或者存儲數據的需求,通常I/O是不密集的。此時I/O可以被其它節點的進程使用。
HDFS的數據復制機制確保多拷貝文件的寫入速度不會比單拷貝系統明顯地慢。
將HDFS掛載為傳統文件系統,使傳統工具(如bwa和GATK)無需修改即可從HDFS讀取數據。
能滿足計算過程中產生的臨時存儲需求的本地文件系統,使傳統工具可與分布式存儲系統配合使用。
附圖說明
圖1為本系統的一個示例圖。
具體實施方式
本發明構建了用于基因組分析的分布式I/O系統。它以分布式文件系統(HDFS)為基本存儲系統,在多個服務器節點上提供高通量I/O功能,進行分布式基因組數據計算。
它的工作原理如下:
一個HDFS集群與基因組分析計算節點耦合。
其中一個計算節點作為HDFS的名字節點(NameNode)。
所有計算節點都用作HDFS的數據節點(DataNodes)。
寫入文件系統的數據在集群中的3個不同節點上存儲3個副本。
在每個計算節點上,啟動NFS代理。
由NFS代理向計算節點提供文件系統。
在每個計算節點上,通過NFS代理將HDFS掛載為文件系統MF。
在每個計算節點上,本地文件系統LF作為臨時存儲使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬志強,未經馬志強許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810102016.1/2.html,轉載請聲明來源鉆瓜專利網。





