[發明專利]基于spark平臺的基因數據分析方法有效
| 申請號: | 201711291882.1 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN110021345B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 譚光明;張中海;牛鋼;王炳琛;張春明 | 申請(專利權)人: | 北京哲源科技有限責任公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B30/10;G16B50/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100095 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark 平臺 基因 數據 分析 方法 | ||
本發明提供一種基于spark平臺的基因數據分析方法。該方法包括:獲取基因測序數據;利用spark平臺將所獲取的基因測序數據生成彈性分布式數據集RDD,其中,所述彈性分布式數據集RDD包括多個部分;對所述彈性分布式數據集RDD的每個部分執行與參考基因的比對,以生成包含比對結果的彈性分布式數據集RDD。根據本發明的方法,能夠將基因數據分析算法通過spark平臺來實現,從而提高基因數據分析的效率和靈活性。
技術領域
本發明涉及基因數據測序技術領域,尤其涉及一種基于spark平臺的基因數據分析方法。
背景技術
近年來,基因測序技術得到了迅速發展,尤其是二代測序(NGS,Next generationsequence)技術的廣泛應用,使得基因測序在疾病監測、生物醫療等領域發揮了重要作用,基因測序相關的醫療產品逐漸成型并展現出巨大的市場潛力。
然而,隨著二代測序數據量爆炸性的增長,傳統的基因數據分析工具和分析方法已經無法滿足海量生物數據的處理需求,基因數據的處理速度逐漸成為整個基因測序流程中的瓶頸。盡管國內外針對基因數據處理進行了大量的優化工作,例如,通過分布式并行處理基因數據或針對基因數據分析工具的優化加速等,但總體而言,相對于原始測序數據的產生,基因數據分析的計算效率較低。
現有技術中,使用的并行優化方法是基于任務調度和共享存儲,通常通過數據劃分對各個基因數據步驟進行多機并行,這種方法很難進行進程間通信,在編程模式上受到較大局限,很難對數據依賴情況進行處理。而且數據切分會產生大量中間文件,導致磁盤讀寫速度慢。另外,由于共享文件系統(例如Lustre等)對大量小文件的支持較差,也限制了基因數據分析程序的并行性。
此外,基因數據分析流程會根據具體應用場景的不同進行調整,隨著基因測序技術的應用場景不斷拓展,基因數據分析流程的開發和調整也較為頻繁。目前,大多數基因測序產品的核心手段是通過對基因數據進行比對和清理,檢測其中的變異位點并出具相應的檢測治療報告。然而,由于不同數據處理流程涉及的基因樣本、算法參數等存在較大的差別,使得針對特定測序流程的優化工作難以移植。
因此,需要對現有技術進行改進,以解決基因數據分析過程效率低、可擴展性差等問題。
發明內容
本發明的目的在于克服上述現有技術的缺陷,提供一種基于spark平臺的基因數據分析方法。
根據本發明的第一方面,提供了一種基于spark平臺的基因數據分析方法,包括以下步驟:
步驟1:獲取基因測序數據;
步驟2:利用spark平臺將所獲取的基因測序數據生成彈性分布式數據集RDD,其中,所述彈性分布式數據集RDD包括多個部分;
步驟3:對所述彈性分布式數據集RDD的每個部分執行與參考基因的比對,以生成包含比對結果的彈性分布式數據集RDD。
在一個實施例中,在步驟2中,對于雙端基因測序數據,執行以下步驟:通過hadoopAPI接口分別將兩個基因測序數據文件加載并生成兩個彈性分布式數據集RDD;將所述兩個彈性分布式數據集RDD合并為一個彈性分布式數據集RDD;根據測序序列的名稱進行groupBy操作并通過map操作生成成對的所述彈性分布式數據集RDD。
在一個實施例中,本發明的基因數據分析方法還包括:
步驟4:對所述包含比對結果的彈性分布式數據集RDD進行數據清理,以獲得去冗余的彈性分布式數據集RDD;
步驟5:對所述去冗余的彈性分布式數據集RDD依次執行插入缺失重對齊、堿基質量重校驗和變異檢測,以確定所述基因測序數據中的變異位點。
在一個實施例中,步驟4包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京哲源科技有限責任公司,未經北京哲源科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711291882.1/2.html,轉載請聲明來源鉆瓜專利網。





