[發明專利]一種分布式基因大數據存儲平臺在審
| 申請號: | 201810024030.4 | 申請日: | 2018-01-14 |
| 公開(公告)號: | CN110120247A | 公開(公告)日: | 2019-08-13 |
| 發明(設計)人: | 陳墩金;祁建明;周峻松;徐繼峰 | 申請(專利權)人: | 廣州明領基因科技有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B50/00;H03M7/30;H03M7/40 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510610 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 壓縮 大數據 存儲平臺 算術編碼 游程編碼 質量分數 堿基 基因 分布式框架 數據流 比對結果 表達信息 成元數據 存儲空間 匹配工具 數據分割 數據節點 元數據流 基因組 冗余性 比對 去除 存儲 參考 重復 保證 | ||
本發明公開了一種分布式基因大數據存儲平臺,涉及基因大數據壓縮平臺領域,該平臺將輸入FASTQ數據分割成元數據、堿基和質量分數三個數據流,并根據它們自身特點分別獨立地壓縮:去除元數據流中的重復片段并使用LZMA算法進行壓縮;對質量分數流使用游程編碼和算術編碼壓縮;使用匹配工具BWA將短讀與參考基因組比對,提取比對結果中的堿基流表達信息并使用LZMA算法、游程編碼、算術編碼進行壓縮;最后采用分布式框架將數據放在不同的數據節點中存儲,既保證了數據的可靠性,同時增加了數據的安全性。該平臺針對DNA序列本身具有的冗余性進行壓縮,減少了壓縮所需的存儲空間。
技術領域
本發明涉及數據壓縮領域,特別涉及一種基因大數據壓縮平臺領域。
背景技術
計算機作為處理DNA數據的主要工具面臨著前所未有的挑戰,DNA測序數據的增長速度遠遠超過了計算機微處理器和存儲設備的增長速度。計算機自誕生以來,其性能提高速度基本符合摩爾定律,微處理器性能和存儲容量每18和12個月翻一番,然而DNA序列數據每9個月就增加一倍。急劇膨脹的DNA測序數據日益增加,使得存儲這些數據的成本亦越來越高。如何高效地存儲和管理高通量DNA測序技術和大型基因組項目產生的DNA數據“海嘯”已經成為制約DNA測序產業進一步發展的一個重要因素。
發明內容
本發明所要解決的技術問題是提供一種分布式基因大數據存儲平臺,該平臺針對DNA序列本身具有的冗余性進行壓縮,減少了壓縮所需的存儲空間。
為實現上述目的,本發明提供以下的技術方案:一種分布式基因大數據存儲平臺,其特征在于:所述平臺包括數據讀取模塊、數據壓縮模塊、數據存儲模塊;所述數據讀取模塊用于讀取DNA測序儀得到的FASTQ數據;所述數據壓縮模塊用于將FASTQ數據分割成元數據、堿基和質量分數三個數據流,并采用不同的壓縮算法進行數據壓縮;所述數據存儲模塊用于將壓縮后的數據采用分布式的存儲方式存入數據庫。
優選的,所述數據壓縮模塊將FASTQ數據分割成元數據、堿基和質量分數三個數據流,分別采用LZMA算法、游程編碼、算術編碼進行壓縮。
優選的,所述數據存儲模塊由多個數據節點DataNode和中心節點NameNode組成,由中心節點NameNode將數據分發至各個DataNode節點進行存儲。
采用以上技術方案的有益效果是:該分布式基因大數據存儲平臺將FASTQ數據分割成元數據、堿基和質量分數三個數據流,針對不同數據流的特點,采用不同的壓縮算法進行數據壓縮,已到達最大可壓縮率,實現無損高效壓縮,比傳統的壓縮算法平臺具有更好的壓縮效率。
附圖說明
下面結合附圖對本發明的具體實施方式作進一步詳細的描述。
圖1是本發明分布式基因大數據存儲平臺的原理圖。
圖2是本發明分布式基因大數據存儲平臺數據存儲模塊的原理圖。
具體實施方式
下面結合附圖詳細說明本發明一種分布式基因大數據存儲平臺的優選實施方式。
結合圖1出示本發明一種分布式基因大數據存儲平臺的具體實施方式:該平臺包括數據讀取模塊、數據壓縮模塊、數據存儲模塊,如圖1所示,數據讀取模塊用于從數據庫中讀取DNA測序儀的FASTQ數據流,并將數據流導入至數據壓縮模塊;數據壓縮模塊將FASTQ數據流分割為元數據、堿基和質量分數三個數據流,采用不同的壓縮算法進行數據壓縮,然后將壓縮后的數據匯總導入至數據存儲模塊;數據存儲模塊由多個數據節點DataNode和中心節點NameNode組成,NameNode維護所有文件的命名空間,以及每個文件所映射的文件塊信息,負責尋找合適的DataNode存放數據塊。DataNode就是數據最終存放的地方,數據文件被分割成多個文件塊,每個文件塊以文件形式存放到多個DataNode之上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州明領基因科技有限公司,未經廣州明領基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810024030.4/2.html,轉載請聲明來源鉆瓜專利網。





