日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于spark平臺的基因數據分析方法有效

專利信息
申請號: 201711291882.1 申請日: 2017-12-08
公開(公告)號: CN110021345B 公開(公告)日: 2021-02-02
發明(設計)人: 譚光明;張中海;牛鋼;王炳琛;張春明 申請(專利權)人: 北京哲源科技有限責任公司
主分類號: G16B20/20 分類號: G16B20/20;G16B30/10;G16B50/30
代理公司: 北京泛華偉業知識產權代理有限公司 11280 代理人: 王勇
地址: 100095 北京市海淀*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 spark 平臺 基因 數據 分析 方法
【說明書】:

發明提供一種基于spark平臺的基因數據分析方法。該方法包括:獲取基因測序數據;利用spark平臺將所獲取的基因測序數據生成彈性分布式數據集RDD,其中,所述彈性分布式數據集RDD包括多個部分;對所述彈性分布式數據集RDD的每個部分執行與參考基因的比對,以生成包含比對結果的彈性分布式數據集RDD。根據本發明的方法,能夠將基因數據分析算法通過spark平臺來實現,從而提高基因數據分析的效率和靈活性。

技術領域

本發明涉及基因數據測序技術領域,尤其涉及一種基于spark平臺的基因數據分析方法。

背景技術

近年來,基因測序技術得到了迅速發展,尤其是二代測序(NGS,Next generationsequence)技術的廣泛應用,使得基因測序在疾病監測、生物醫療等領域發揮了重要作用,基因測序相關的醫療產品逐漸成型并展現出巨大的市場潛力。

然而,隨著二代測序數據量爆炸性的增長,傳統的基因數據分析工具和分析方法已經無法滿足海量生物數據的處理需求,基因數據的處理速度逐漸成為整個基因測序流程中的瓶頸。盡管國內外針對基因數據處理進行了大量的優化工作,例如,通過分布式并行處理基因數據或針對基因數據分析工具的優化加速等,但總體而言,相對于原始測序數據的產生,基因數據分析的計算效率較低。

現有技術中,使用的并行優化方法是基于任務調度和共享存儲,通常通過數據劃分對各個基因數據步驟進行多機并行,這種方法很難進行進程間通信,在編程模式上受到較大局限,很難對數據依賴情況進行處理。而且數據切分會產生大量中間文件,導致磁盤讀寫速度慢。另外,由于共享文件系統(例如Lustre等)對大量小文件的支持較差,也限制了基因數據分析程序的并行性。

此外,基因數據分析流程會根據具體應用場景的不同進行調整,隨著基因測序技術的應用場景不斷拓展,基因數據分析流程的開發和調整也較為頻繁。目前,大多數基因測序產品的核心手段是通過對基因數據進行比對和清理,檢測其中的變異位點并出具相應的檢測治療報告。然而,由于不同數據處理流程涉及的基因樣本、算法參數等存在較大的差別,使得針對特定測序流程的優化工作難以移植。

因此,需要對現有技術進行改進,以解決基因數據分析過程效率低、可擴展性差等問題。

發明內容

本發明的目的在于克服上述現有技術的缺陷,提供一種基于spark平臺的基因數據分析方法。

根據本發明的第一方面,提供了一種基于spark平臺的基因數據分析方法,包括以下步驟:

步驟1:獲取基因測序數據;

步驟2:利用spark平臺將所獲取的基因測序數據生成彈性分布式數據集RDD,其中,所述彈性分布式數據集RDD包括多個部分;

步驟3:對所述彈性分布式數據集RDD的每個部分執行與參考基因的比對,以生成包含比對結果的彈性分布式數據集RDD。

在一個實施例中,在步驟2中,對于雙端基因測序數據,執行以下步驟:通過hadoopAPI接口分別將兩個基因測序數據文件加載并生成兩個彈性分布式數據集RDD;將所述兩個彈性分布式數據集RDD合并為一個彈性分布式數據集RDD;根據測序序列的名稱進行groupBy操作并通過map操作生成成對的所述彈性分布式數據集RDD。

在一個實施例中,本發明的基因數據分析方法還包括:

步驟4:對所述包含比對結果的彈性分布式數據集RDD進行數據清理,以獲得去冗余的彈性分布式數據集RDD;

步驟5:對所述去冗余的彈性分布式數據集RDD依次執行插入缺失重對齊、堿基質量重校驗和變異檢測,以確定所述基因測序數據中的變異位點。

在一個實施例中,步驟4包括:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京哲源科技有限責任公司,未經北京哲源科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201711291882.1/2.html,轉載請聲明來源鉆瓜專利網。

同類專利
專利分類
×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久99精品国产麻豆婷婷洗澡 | 国产在线播放一区二区| 爽妇色啪网| 99久久国产综合精品尤物酒店| 亚洲高清国产精品| 91丝袜国产在线播放| 久免费看少妇高潮a级特黄按摩| 精品国产伦一区二区三区| 中文字幕日本一区二区| 国产高清精品一区二区| 国产偷国产偷亚洲清高| 久久99久久99精品免观看软件| 国产一级一区二区| 欧美在线视频精品| 狠狠躁夜夜| 91精品系列| 精品欧美一区二区在线观看| 欧美精品一区二区三区在线四季| 欧美日韩一区不卡| 国产69精品99久久久久久宅男 | 91精品丝袜国产高跟在线| 精品国产乱码久久久久久虫虫| 欧美午夜看片在线观看字幕| 欧美精品在线视频观看 | 香蕉av一区二区三区| 日本三级韩国三级国产三级| 国产在线一区二区视频| 一区二区精品在线| 97视频一区| 日韩亚洲精品在线| 亚洲第一区国产精品| 日韩精品人成在线播放| 最新国产一区二区| 91精品久| 色噜噜日韩精品欧美一区二区| 午夜国产一区二区三区四区| 午夜国产一区| 欧美精选一区二区三区| 国产精品电影免费观看| 国产精品视频久久| 麻豆精品久久久| 97香蕉久久国产超碰青草软件| 538国产精品| 欧美乱大交xxxxx| 午夜看片在线| 一区二区三区四区视频在线| 亚洲国产精品国自产拍久久| 李采潭无删减版大尺度| 欧美精品中文字幕亚洲专区| 精品国产一二区| 午夜天堂在线| 国产第一区在线观看| 国产在线一区不卡| 狠狠色综合久久丁香婷婷 | 日韩精品免费一区二区三区| 另类视频一区二区| 欧美高清极品videossex| 激情久久一区| 国产日韩欧美网站| 996久久国产精品线观看| 午夜影院伦理片| 中文字幕一区二区三区不卡| 鲁丝一区二区三区免费| 欧美一区二区精品久久| 99精品欧美一区二区| 日韩精品乱码久久久久久| 91久久国语露脸精品国产高跟| 久久综合二区| 国产一区二区三区的电影| 国产精自产拍久久久久久蜜 | 日韩精品一二区| 国产欧美综合一区| 99久久夜色精品国产网站| 国产乱了高清露脸对白| 特级免费黄色片| 91av一区二区三区| 欧美一区二三区人人喊爽| 曰韩av在线| 国产一级片子| 日韩国产精品一区二区| 国产午夜一级一片免费播放| 日韩精品中文字幕在线播放|