[發明專利]應用于分布式基因組分析的快速I/O系統在審

申請號：	201810102016.1	申請日：	2018-02-01
公開（公告）號：	CN108280214A	公開（公告）日：	2018-07-13
發明（設計）人：	馬志強;薛紅;顧磷;李威潔	申請（專利權）人：	馬志強
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京市萬慧達律師事務所 11111	代理人：	王虎;梁順珍
地址：	中國香港新界***	國省代碼：	中國香港;81
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	計算節點基因組分析文件系統掛載集群寫入分布式文件系統傳統文件系統讀取分布式計算基因組數據存儲系統臨時存儲數據節點寫入文件自動保存進程耦合多節點高通量磁盤代理副本應用存儲退出名字分析
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種應用于分布式基因組分析的快速I/O系統，它使用分布式文件系統HDFS作為基本存儲系統，并利用每個節點的本地磁盤，綜合提高多節點分布式計算中的基因組數據的高通量的I/O功能；HDFS集群與基因組分析計算節點耦合；其中一個計算節點作為HDFS的名字節點；所有計算節點用作HDFS數據節點；寫入文件系統的數據在集群中的3個不同節點上存儲3個副本；在每個計算節點上，啟動NFS代理；在每個計算節點上，通過NFS代理將HDFS掛載為文件系統MF；在每個計算節點上，本地文件系統LF用作臨時存儲；計算節點上的分析進程像讀取傳統文件系統一樣從掛載文件系統MF讀取數據；對于要寫入的數據，將數據寫入LF；在LF中，由進程生成的文件將在進程退出之前自動保存到MF。

技術領域

本發明涉及存儲系統技術領域，尤其涉及一種應用于分布式基因組分析的快速I/O系統。

背景技術

基因組數據，比如人的全基因組數據，數據量是巨大的。所以對基因組的分析過程需要讀取和寫入大量的數據，包括輸入，輸出和中間文件。傳統的集中式I/O數據處理系統，如NFS和SAN，便成為基因組數據分析的瓶頸。

昂貴的存儲設備可用于提高I/O性能。但是，并非在所有需求中都有負擔如此成本的預期。而且，如果集群擴展到1000個節點，這可能會成為技術上的瓶頸。

分布式系統，比如GFS[1]和HDFS[2]，可以以低成本提供高I/O。同時，它們可以擴展到在1000個節點上運行。然而，分布式文件系統的語義與傳統的本地文件系統的語義是不同的。所以使用傳統文件系統作為接口的基因組分析工具可能無法很好地與分布式文件系統協作。

發明內容

該方法使用分布式文件系統HDFS作為基本的存儲系統，在此基礎上構建了用于基因組數據在多服務器節點上的分布式計算的高通量的I/O功能。

相比集中式單拷貝存儲系統，本發明將生成數據于3個節點上存儲3個拷貝，讓后續步驟可以以3倍I/O通量讀取。

系統資源得到更有效地使用。在計算過程中，除了開始和結束階段需要處理大量的讀取或者存儲數據的需求，通常I/O是不密集的。此時I/O可以被其它節點的進程使用。

HDFS的數據復制機制確保多拷貝文件的寫入速度不會比單拷貝系統明顯地慢。

將HDFS掛載為傳統文件系統，使傳統工具(如bwa和GATK)無需修改即可從HDFS讀取數據。

能滿足計算過程中產生的臨時存儲需求的本地文件系統，使傳統工具可與分布式存儲系統配合使用。

附圖說明

圖1為本系統的一個示例圖。

具體實施方式

本發明構建了用于基因組分析的分布式I/O系統。它以分布式文件系統(HDFS)為基本存儲系統，在多個服務器節點上提供高通量I/O功能，進行分布式基因組數據計算。

它的工作原理如下：

一個HDFS集群與基因組分析計算節點耦合。

其中一個計算節點作為HDFS的名字節點(NameNode)。

所有計算節點都用作HDFS的數據節點(DataNodes)。

寫入文件系統的數據在集群中的3個不同節點上存儲3個副本。

在每個計算節點上，啟動NFS代理。

由NFS代理向計算節點提供文件系統。

在每個計算節點上，通過NFS代理將HDFS掛載為文件系統MF。

在每個計算節點上，本地文件系統LF作為臨時存儲使用。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于馬志強，未經馬志強許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810102016.1/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種大數據的分析系統
下一篇：一種基于Solr的電商索引文件的混合式更新方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】