[發(fā)明專利]一種基因變異數(shù)據(jù)分布式存儲方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201711267170.6 | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN108563923B | 公開(公告)日: | 2020-08-18 |
| 發(fā)明(設(shè)計(jì))人: | 董守斌;王博;董守玲;袁華 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G16C20/90 | 分類號: | G16C20/90;G16C20/70 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基因 變異 數(shù)據(jù) 分布式 存儲 方法 系統(tǒng) | ||
本發(fā)明公開了一種基因變異數(shù)據(jù)分布式存儲方法及系統(tǒng),該方法包括分布式數(shù)據(jù)存儲過程、分布式位圖索引創(chuàng)建過程和分布式查詢檢索過程;該系統(tǒng)包括分布式列式存儲模塊、分布式位圖索引模塊和查詢檢索模塊。本發(fā)明通過采用新的列式存儲引擎kudu進(jìn)行數(shù)據(jù)分布式存儲,并針對各樣本列建立分布式局部位圖索引,有效解決現(xiàn)有的HDFS方案隨機(jī)數(shù)據(jù)訪問性能低的問題;解決HBase方案批量分析性能不佳的問題;簡化存儲架構(gòu)模型;解決基因型查詢工具對多個工具依賴的限制問題;同時本發(fā)明通過分布式的局部位圖索引方案,實(shí)現(xiàn)了高并發(fā),并提高了可拓展性。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)存儲領(lǐng)域,尤其是指一種基于列式存儲和位圖索引的基因變異數(shù)據(jù)分布式存儲方法及系統(tǒng)。
背景技術(shù)
隨著基因測序技術(shù)的長足發(fā)展以及人們對個性化醫(yī)療的迫切需要,全基因組關(guān)聯(lián)分析成為當(dāng)下越來越熱門的一個研究領(lǐng)域。全基因組關(guān)聯(lián)分析依賴于大規(guī)模的基因變異檢測數(shù)據(jù),這些數(shù)據(jù)屬于典型的大數(shù)據(jù)范疇,不同存儲架構(gòu)的數(shù)據(jù)組織方式、索引方式、拓展方式等會對數(shù)據(jù)的檢索分析產(chǎn)生很大的影響。全基因組關(guān)聯(lián)分析場景既需要低時延的隨機(jī)讀取性能,又需要高效的批量讀寫性能,不合適的存儲架構(gòu)可能會導(dǎo)致效率低下、模型復(fù)雜、可拓展性低等問題,需要設(shè)計(jì)合適的存儲架構(gòu)來提高全基因組關(guān)聯(lián)分析的效率。
基于Hadoop分布式文件系統(tǒng)(HDFS)的存儲方案將變異檢測文件(VCF文件)以Block塊的形式存儲在多個節(jié)點(diǎn)上,可擴(kuò)展性強(qiáng),可以高效地響應(yīng)批量分析任務(wù),但是它不能提供低延遲的隨機(jī)數(shù)據(jù)訪問,也無法提供數(shù)據(jù)更新操作。基于HBase的存儲方案采用鍵值對的形式存儲VCF文件,HBase是一個分布式數(shù)據(jù)庫,可以方便的拓展到多個節(jié)點(diǎn)上,基于HBase可以實(shí)現(xiàn)低延遲的隨機(jī)讀寫,但是因?yàn)镠Base是列簇式存儲,且存儲的是鍵值對,它的scan開銷比較大,無法實(shí)現(xiàn)高效的批量分析操作。基于HDFS+HBase的混合架構(gòu)可以實(shí)現(xiàn)低延遲的隨機(jī)讀寫及高效的批量分析,但是這種架構(gòu)的模型復(fù)雜,數(shù)據(jù)維護(hù)成本大,且數(shù)據(jù)從生成到能夠被批量分析的數(shù)據(jù)流延遲大。此外,還有一些基因型查詢工具,如gqt,它在VCF文件的基礎(chǔ)上創(chuàng)建位圖索引來加速檢索,但是這種工具僅能完成場景需要的部分功能,更復(fù)雜的查詢需要組合多個工具,而且這些工具多是單節(jié)點(diǎn)處理的,可拓展性差。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提出了一種基于列式存儲和位圖索引的基因變異數(shù)據(jù)分布式存儲方法及系統(tǒng),通過采用新的列式存儲引擎kudu進(jìn)行數(shù)據(jù)分布式存儲,并針對各樣本列建立分布式局部位圖索引,有效解決現(xiàn)有的HDFS方案隨機(jī)數(shù)據(jù)訪問性能低的問題;解決HBase方案批量分析性能不佳的問題;簡化存儲架構(gòu)模型;解決基因型查詢工具對多個工具依賴的限制問題;同時本發(fā)明通過分布式的局部位圖索引方案,實(shí)現(xiàn)了高并發(fā),并提高了可拓展性。
為實(shí)現(xiàn)上述目的,本發(fā)明所提供的技術(shù)方案為:
一種基因變異數(shù)據(jù)分布式存儲方法,包括分布式數(shù)據(jù)存儲過程、分布式位圖索引創(chuàng)建過程和分布式查詢檢索過程;
所述分布式數(shù)據(jù)存儲過程包括以下步驟:
S1、對VCF文件進(jìn)行預(yù)處理,將VCF頭部切除,將VCF文件縱向切分成元數(shù)據(jù)信息和樣本基因型信息兩部分,并將樣本基因型數(shù)據(jù)進(jìn)一步縱向切分成所需大小的數(shù)據(jù)集;
S2、對步驟S1中的各份數(shù)據(jù),在列式存儲kudu中創(chuàng)建對應(yīng)的元數(shù)據(jù)表及樣本表,根據(jù)VCF文件中的表頭信息,指定各表的列名、列屬性、主鍵列,并采用鍵值對保存樣本與樣本所屬表格的對應(yīng)關(guān)系;
S3、為步驟S2中各個表指定統(tǒng)一的分區(qū)方式,即將表水平切分成多個tablet 分片;
S4、將步驟S1預(yù)處理后的數(shù)據(jù)加載到前述步驟所創(chuàng)建的kudu表格中;
所述分布式位圖索引創(chuàng)建過程包括以下步驟:
S5、掃描kudu中樣本表各數(shù)據(jù)列,統(tǒng)計(jì)各列的屬性基數(shù)并記錄屬性值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711267170.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種預(yù)測性變異測試方法
- 一種冗余變異體識別方法
- 基于Android多線程數(shù)據(jù)依賴的變異測試方法
- 序列變異校驗(yàn)方法和裝置、生產(chǎn)變異序列的方法和裝置及電子設(shè)備
- 對測序序列進(jìn)行變異模擬的方法及其應(yīng)用
- 一種冗余變異體識別方法及識別裝置
- 致病性變異位點(diǎn)判定方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 測試方法、裝置和計(jì)算機(jī)可讀存儲介質(zhì)
- 一種模型非依賴的基因組結(jié)構(gòu)變異檢測系統(tǒng)及方法
- 結(jié)構(gòu)變異檢測模型、其構(gòu)建方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





