[發明專利]面向基因測序大數據的云存儲方法在審
| 申請號: | 201810314885.0 | 申請日: | 2018-04-10 |
| 公開(公告)號: | CN108650298A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 劉輝 | 申請(專利權)人: | 常州大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F19/28;G06F19/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213164 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大數據 基因測序 云存儲 副本 分布式文件系統 高通量測序 并發訪問 存儲模式 存儲容量 訪問頻率 分析過程 橫向擴展 數據文件 可用性 客戶端 條塊 保存 | ||
本發明提供一種面向基因測序大數據的云存儲方法,針對高通量測序大數據以及分析過程中的并發訪問性能、訪問頻率、可用性等特點,提出條塊化多副本,分布式多副本以及分布式單副本三種存儲模式來保存不同的數據文件。本發明提供的面向基因測序大數據的云存儲方法,采用基于GlusterFS分布式文件系統實現,具有強大的橫向擴展能力,通過擴展能夠支持數PB存儲容量和處理數千客戶端。
技術領域
本發明涉及基因測序大數據處理技術領域,特別是涉及一種面向基因測序大數據的云存儲方法。
背景技術
隨著生物醫療技術特別是大規模基因測序的耗時與成本大大降低,精準醫學與基因檢測已從實驗室逐步走進臨床應用和普通人的生活。伴隨著基因檢測與精準醫療向著大規模、商業化方向發展,個人基因測序數據將出現井噴趨勢,海量基因測序數據的云存儲是一項具有挑戰性的任務;與此同時,人們通過網絡訪問基因測序數據及其相關數據資源的需求也必將隨之興起。國外一些科研服務機構,包括ENCODE,ATGC提供了面向學術研究服務的基因測序大數據存儲與數據挖掘工具,他們將文件存儲在RAID5或者RAID10磁盤陣列存儲上,這種方法缺點是單節點失效導致文件無法訪問,存儲空間難以擴展;而國內的基因測序機構現階段側重于市場開發,尚未開展對面向普通消費者的基因測序數據的云存儲與檢索業務。
發明內容
本發明所要解決的技術問題是:為了克服現有技術中的不足,本發明提供一種面向基因測序大數據的云存儲方法,所述云存儲方法可動態擴展存儲空間,為基因測序大數據及其分析產生的數據文件提出了一種高性能、高可用性且經濟的存儲系統。
本發明解決其技術問題所要采用的技術方案是:一種面向基因測序大數據的云存儲方法,包括以下步驟:首先,根據數據文件的特點對基因測序大數據進行分類,然后根據分類結果選擇存儲策略的類型,將基因測序大數據上傳到云存儲服務器的各個存儲節點進行存儲。上傳數據文件至云存儲服務器時,將文件名、文件大小以及存儲路徑保存至關系數據庫中,其中,關系數據庫包括SQL server、Mysql、oracle等都是關系型管理數據庫;檢索數據文件時只需從關系數據庫中讀取對應的記錄即可,從而加快數據檢索速度;從客戶端下載數據文件時,先從關系數據庫中讀取該文件的存儲路徑,再從云存儲服務器中讀取文件內容發送給客戶端。
針對高通量測序大數據以及分析過程中的并發訪問性能、訪問頻率、可用性等特點,提出條塊化多副本、分布式多副本以及分布式單副本三種存儲策略來保存不同訪問特征的文件。
不同存儲策略的存儲過程為:
(1)條塊化多副本存儲策略:將單個大文件分割成若干數據塊,每個數據塊保存在不同存儲節點上,提高并發訪問性能;每個數據塊都存儲在至少三個不同存儲節點上,以提高數據可用性;
(2)分布式多副本存儲策略:構建分布式集群擴展存儲空間以保存海量數據,每個文件在至少兩個不同存儲節點保存完整副本,提高數據可用性;
(3)分布式單副本存儲策略:構建分布式集群擴展存儲空間以存儲海量數據,每個文件只在一個節點上保存完整副本。
許多物種的基因組、轉錄組與表觀遺傳組已經通過測序并構建了圖譜,測序數據分析過程中使用已知的基因組作為參考可大大提高分析的準確性;由于基因組比較大,將測序片段(read)比對到參考基因組坐標是一項非常耗時的工作。因此,比對算法(aligner)基于參考基因組構建所需要的索引文件,能大大加快比對速度;對于模式生物特別是人類,許多基因的功能以及位點變異導致的疾病都已經被揭示,形成了許多注釋文件。參考基因組、轉錄組、比對算法需要的索引文件以及功能注釋文件的特點是單個文件大,并發性能要求高,訪問頻率高,可用性要求高。針對這類數據文件的訪問特點,本發明采用條塊化多副本存儲策略,將單個大文件分割成若干數據塊,每個數據塊保存在不同存儲節點上提高并發訪問性能,且每個數據塊都存儲在至少三個不同存儲節點上以提高數據可用性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常州大學,未經常州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810314885.0/2.html,轉載請聲明來源鉆瓜專利網。





