[發(fā)明專利]一種基于Hadoop構建的PacBio測序平臺IT架構在審
| 申請?zhí)枺?/td> | 201710654438.5 | 申請日: | 2017-08-03 |
| 公開(公告)號: | CN107563153A | 公開(公告)日: | 2018-01-09 |
| 發(fā)明(設計)人: | 羅崇珺;萬君興;華子昂;華晨 | 申請(專利權)人: | 華子昂 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22;G06F19/28 |
| 代理公司: | 銀川長征知識產(chǎn)權代理事務所64102 | 代理人: | 陳曉慶 |
| 地址: | 116000 遼寧省大連市大*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 構建 pacbio 平臺 it 架構 | ||
1.一種基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述IT架構包括硬件模塊、軟件模塊、數(shù)據(jù)層次模塊、服務器組設計模塊;其中,
硬件模塊主要通過交換機、路由器、服務器、外置存儲器基礎硬件的連接,實現(xiàn)數(shù)據(jù)的傳輸和存儲,并成功執(zhí)行計算;
軟件模塊是通過從分析儀器收集到海量的生物信息數(shù)據(jù)利用Flume技術實時監(jiān)控,并上傳至HDFS分布式數(shù)據(jù)處理集群,以及從第三方SQL數(shù)據(jù)庫得到海量的數(shù)據(jù)利用sqoop工具導進Hadoop中,對這些數(shù)據(jù)進行過濾、融合及相關的處理,并將處理后的數(shù)據(jù)存儲在數(shù)據(jù)庫中,再結合SQL分析工具Hive對存儲的數(shù)據(jù)進行分析,數(shù)據(jù)關系分析工具Pig找出數(shù)據(jù)間的規(guī)律及MapReduce進行更復雜的內(nèi)容分析,最后實現(xiàn)從海量實驗數(shù)據(jù)中挖掘出有價值的知識和規(guī)律;
數(shù)據(jù)層次模塊主要進行對獲取到的海量生物信息數(shù)據(jù)處理,包括從源數(shù)據(jù),結構化數(shù)據(jù),多層處理后數(shù)據(jù),分析結果到得出結論;
服務器組設計模塊用于PacBio SMRT分析服務器組與大數(shù)據(jù)服務器組硬件共生設計及角色分配,同時結合對海量數(shù)據(jù)的高效率處理技術,形成對基因序列的快速、低成本解讀。
2.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述從第三方SQL數(shù)據(jù)庫中得到海量數(shù)據(jù)通過sqoop工具導入數(shù)據(jù)到Hadoop的系統(tǒng)包括HBase、Hive和Oozie。
3.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述結合SQL分析工具Hive對存儲的數(shù)據(jù)進行分析是通過SQL分析工具Hive進行查詢大數(shù)據(jù)集,具體為:Hive運行依賴于Hadoop,在HDFS上為Hive創(chuàng)建/tmp目錄和
/user/hive/warehouse(akahive.metastore.warehouse.dir)目錄,然后運行Hive,Hive的數(shù)據(jù)存儲在HDFS中,Hive中的數(shù)據(jù)模型以表的形式存在,Hive查詢操作過程嚴格遵守Hadoop MapReduce的作業(yè)執(zhí)行模型,Hive將用戶的HiveQL語句通過解釋器轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群上,Hadoop監(jiān)控作業(yè)執(zhí)行過程,然后返回作業(yè)執(zhí)行結果給用戶。
4.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述數(shù)據(jù)關系分析工具Pig找出數(shù)據(jù)間的規(guī)律及MapReduce進行更復雜的內(nèi)容分析是通過數(shù)據(jù)關系分析平臺Pig進行分析大數(shù)據(jù)集,具體為:Pig讀取Hadoop配置文件獲取Namenode和JobTracker進程所在的機器,程序根據(jù)數(shù)據(jù)集大小被轉(zhuǎn)換為一系列MapReduce作業(yè)運行在Hadoop平臺,面向數(shù)據(jù)流的類SQL的Pig Latin語言進行對Hadoop中的大數(shù)據(jù)進行加載、合并、過濾、排序、分組、關聯(lián)及對數(shù)據(jù)集使用函數(shù)功能。
5.根據(jù)權利要求4所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述一系列MapReduce作業(yè)運行在Hadoop平臺是把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊,由Map任務以完全并行的方式去處理,即對Map的輸出先進行排序,然后把結果輸入給Reduce任務,通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中,整個框架負責任務的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)關閉的任務。
6.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述IT架構通過生物信息學平臺應用軟件HUE來訪問HDFS,編寫并執(zhí)行任務腳本。
7.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述數(shù)據(jù)層次模塊進行對獲取到的海量生物信息數(shù)據(jù)處理時的數(shù)據(jù)庫為自動機模型庫第三方數(shù)據(jù)庫,其以表的形式存儲數(shù)據(jù),并且需要用Sqoop導入Hadoop。
8.根據(jù)權利要求1至7中任一權利要求所述的基于Hadoop構建的PacBio測序平臺IT架構,其特征在于:所述IT架構適用于PacBio RSⅡ測序平臺和PacBio RS Sequel測序平臺。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華子昂,未經(jīng)華子昂許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710654438.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應用的數(shù)字計算或數(shù)據(jù)處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質(zhì)相關的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡,蛋白質(zhì)交互作用網(wǎng)絡或新陳代謝作用網(wǎng)絡
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質(zhì)折疊,結構域拓撲,用結構數(shù)據(jù)的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質(zhì)組學的,例如:基因型–表型關聯(lián),不均衡連接,種群遺傳學,結合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應用方法





