[發(fā)明專利]一種基于Hadoop構建的PacBio測序平臺IT架構在審

申請?zhí)枺?/td>	201710654438.5	申請日：	2017-08-03
公開（公告）號：	CN107563153A	公開（公告）日：	2018-01-09
發(fā)明（設計）人：	羅崇珺;萬君興;華子昂;華晨	申請（專利權）人：	華子昂
主分類號：	G06F19/22	分類號：	G06F19/22;G06F19/28
代理公司：	銀川長征知識產(chǎn)權代理事務所64102	代理人：	陳曉慶
地址：	116000 遼寧省大連市大***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 hadoop 構建 pacbio 平臺 it 架構
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述IT架構包括硬件模塊、軟件模塊、數(shù)據(jù)層次模塊、服務器組設計模塊；其中，

硬件模塊主要通過交換機、路由器、服務器、外置存儲器基礎硬件的連接，實現(xiàn)數(shù)據(jù)的傳輸和存儲，并成功執(zhí)行計算；

軟件模塊是通過從分析儀器收集到海量的生物信息數(shù)據(jù)利用Flume技術實時監(jiān)控，并上傳至HDFS分布式數(shù)據(jù)處理集群，以及從第三方SQL數(shù)據(jù)庫得到海量的數(shù)據(jù)利用sqoop工具導進Hadoop中，對這些數(shù)據(jù)進行過濾、融合及相關的處理，并將處理后的數(shù)據(jù)存儲在數(shù)據(jù)庫中，再結合SQL分析工具Hive對存儲的數(shù)據(jù)進行分析，數(shù)據(jù)關系分析工具Pig找出數(shù)據(jù)間的規(guī)律及MapReduce進行更復雜的內(nèi)容分析，最后實現(xiàn)從海量實驗數(shù)據(jù)中挖掘出有價值的知識和規(guī)律；

數(shù)據(jù)層次模塊主要進行對獲取到的海量生物信息數(shù)據(jù)處理，包括從源數(shù)據(jù)，結構化數(shù)據(jù)，多層處理后數(shù)據(jù)，分析結果到得出結論；

服務器組設計模塊用于PacBio SMRT分析服務器組與大數(shù)據(jù)服務器組硬件共生設計及角色分配，同時結合對海量數(shù)據(jù)的高效率處理技術，形成對基因序列的快速、低成本解讀。

2.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述從第三方SQL數(shù)據(jù)庫中得到海量數(shù)據(jù)通過sqoop工具導入數(shù)據(jù)到Hadoop的系統(tǒng)包括HBase、Hive和Oozie。

3.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述結合SQL分析工具Hive對存儲的數(shù)據(jù)進行分析是通過SQL分析工具Hive進行查詢大數(shù)據(jù)集，具體為：Hive運行依賴于Hadoop，在HDFS上為Hive創(chuàng)建/tmp目錄和

/user/hive/warehouse(akahive.metastore.warehouse.dir)目錄，然后運行Hive，Hive的數(shù)據(jù)存儲在HDFS中，Hive中的數(shù)據(jù)模型以表的形式存在，Hive查詢操作過程嚴格遵守Hadoop MapReduce的作業(yè)執(zhí)行模型，Hive將用戶的HiveQL語句通過解釋器轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群上，Hadoop監(jiān)控作業(yè)執(zhí)行過程，然后返回作業(yè)執(zhí)行結果給用戶。

4.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述數(shù)據(jù)關系分析工具Pig找出數(shù)據(jù)間的規(guī)律及MapReduce進行更復雜的內(nèi)容分析是通過數(shù)據(jù)關系分析平臺Pig進行分析大數(shù)據(jù)集，具體為：Pig讀取Hadoop配置文件獲取Namenode和JobTracker進程所在的機器，程序根據(jù)數(shù)據(jù)集大小被轉(zhuǎn)換為一系列MapReduce作業(yè)運行在Hadoop平臺，面向數(shù)據(jù)流的類SQL的Pig Latin語言進行對Hadoop中的大數(shù)據(jù)進行加載、合并、過濾、排序、分組、關聯(lián)及對數(shù)據(jù)集使用函數(shù)功能。

5.根據(jù)權利要求4所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述一系列MapReduce作業(yè)運行在Hadoop平臺是把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊，由Map任務以完全并行的方式去處理，即對Map的輸出先進行排序，然后把結果輸入給Reduce任務，通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中，整個框架負責任務的調(diào)度和監(jiān)控，以及重新執(zhí)行已經(jīng)關閉的任務。

6.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述IT架構通過生物信息學平臺應用軟件HUE來訪問HDFS，編寫并執(zhí)行任務腳本。

7.根據(jù)權利要求1所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述數(shù)據(jù)層次模塊進行對獲取到的海量生物信息數(shù)據(jù)處理時的數(shù)據(jù)庫為自動機模型庫第三方數(shù)據(jù)庫，其以表的形式存儲數(shù)據(jù)，并且需要用Sqoop導入Hadoop。

8.根據(jù)權利要求1至7中任一權利要求所述的基于Hadoop構建的PacBio測序平臺IT架構，其特征在于：所述IT架構適用于PacBio RSⅡ測序平臺和PacBio RS Sequel測序平臺。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于華子昂，未經(jīng)華子昂許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710654438.5/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。