[發明專利]一種分布式基因大數據存儲平臺在審
| 申請號: | 201810024030.4 | 申請日: | 2018-01-14 |
| 公開(公告)號: | CN110120247A | 公開(公告)日: | 2019-08-13 |
| 發明(設計)人: | 陳墩金;祁建明;周峻松;徐繼峰 | 申請(專利權)人: | 廣州明領基因科技有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B50/00;H03M7/30;H03M7/40 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510610 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 壓縮 大數據 存儲平臺 算術編碼 游程編碼 質量分數 堿基 基因 分布式框架 數據流 比對結果 表達信息 成元數據 存儲空間 匹配工具 數據分割 數據節點 元數據流 基因組 冗余性 比對 去除 存儲 參考 重復 保證 | ||
1.一種分布式基因大數據存儲平臺,其特征在于:所述平臺包括數據讀取模塊、數據壓縮模塊、數據存儲模塊;所述數據讀取模塊用于讀取DNA測序儀得到的FASTQ數據;所述數據壓縮模塊用于將FASTQ數據分割成元數據、堿基和質量分數三個數據流,并采用不同的壓縮算法進行數據壓縮;所述數據存儲模塊用于將壓縮后的數據采用分布式的存儲方式存入數據庫。
2.根據權利要求1所述的一種分布式基因大數據存儲平臺,其特征在于:所述數據壓縮模塊將FASTQ數據分割成元數據、堿基和質量分數三個數據流,分別采用LZMA算法、游程編碼、算術編碼進行壓縮。
3.根據權利要求1所述的一種分布式基因大數據存儲平臺,其特征在于:所述數據存儲模塊由多個數據節點DataNode和中心節點NameNode組成,由中心節點NameNode將數據分發至各個DataNode節點進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州明領基因科技有限公司,未經廣州明領基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810024030.4/1.html,轉載請聲明來源鉆瓜專利網。





