[發明專利]癌癥體細胞突變基因測序數據分析工作流整合算法在審
| 申請號: | 201410571652.0 | 申請日: | 2014-10-24 |
| 公開(公告)號: | CN104408284A | 公開(公告)日: | 2015-03-11 |
| 發明(設計)人: | 吳翀;王瑜;閆威 | 申請(專利權)人: | 北京微旋基因技術有限公司 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 癌癥 體細胞 突變 基因 序數 分析 工作流 整合 算法 | ||
技術領域
本發明涉及生物醫學數據分析領域,具體而言,涉及一種癌癥體細胞突變基因測序數據分析工作流整合算法。?
背景技術
基因是遺傳的物質基礎。生物體的生老病死等一切生命現象都與基因有關。基因測序是解讀生命的一種途徑,隨著第二代及第三代高通量測序技術的發展,測序結果往往是TB級別甚至更大的的序列數據。合理分析解讀這些大規模及高維度的數據成為獲取數據后一個更大的難點,是當前生物研究的關鍵步驟,具有巨大的現實意義。?
海量高通量測序數據的存儲、處理和分析都極大地挑戰著當前的計算機系統和計算模式。現有的系統面臨運算量不夠,人工干預可靠度較低,云架構對底層硬件控制力較低及用戶隱私擔憂等問題。?
現有的大數據測序信息對數據分析工具的挑戰需要存儲、管理、傳輸、調度和計算分析優化的全面協調,需要生物領域、計算機領域、數據統計分析等多方密切配合,尤其在分析工具的整合方面,現有的數據分析軟件存在整合度低,對不同來源的數據匹配較差,準確度和重復性不高,效率低下等多種問題。?
在腫瘤檢測和早期診斷中,癌癥體細胞突變是測序檢測所重點關注的問題,這要求能夠盡量高效而準確的分析測序原始數據,但是現有的算法往往只關注與測序數據分析的單一的環節,而每個步驟中過于繁雜的分析軟件的選擇范圍,也給由測序原始數據得出診斷結果增加了障礙,?
例如,在測序數據比對環節,常用的算法包括bwa,bowtie,cushaw,barracuda,運算速度不同,適配的基礎硬件也不同,其中cushaw為高性能運算卡專門設計,可以達到并行計算進行加速的目的,而bwa,bowtie,barracuda雖然不具備并行計算功能,但能夠適配的底層數據和計算硬件則相對較為寬泛。?
而在在SNP鑒定(主要實現將測序結果比對到基因組上并鑒定出相關突變的功能)環節,常用軟件主要包括:samtools、GATK、Qcall等,這些軟件有的偏重準確性,有的偏重效率。?
在癌癥體細胞突變(主要通過比較同一病人正常和癌癥組織,并由此鑒定出癌癥中發生的體細胞突變)鑒定過程中,主要軟件包括:VarScan,GATK?UnifiedGenotyper,VarScan等算法,有的偏重于檢測準確度高,有的普適性數據兼容性,有的輸入輸出標準相對簡單。?
因此,需要一種癌癥體細胞突變基因測序數據分析工作流整合算法,在一定程度上將上述算法優化整合,以達到準確而高效的檢測癌癥體細胞突變基因的目的。?
發明內容
本發明的目的是提供一種癌癥體細胞突變基因測序數據分析工作流整合算法。?
所述的癌癥體細胞突變基因測序數據來源于illumina公司的Hiseq系列的測序儀,或是ThermoFisher公司的PGM及Proton系列測序儀,測序數據級別為Mb~Gb大小,基礎長度10~1000bp,數據格式為FastQ或SFF格式。?
所述的癌癥體細胞突變基因測序分析數據工作流示意流程如附圖1,?
所述的癌癥體細胞突變基因測序分析數據工作流整合算法包括如下步驟:?
(1)將測序數據比對到參考基因組序列,使用cushaw算法,使用科學運算流處理器加速后,數據比對速度提高至其他軟件的10-100倍;?
(2)SNP鑒定,使用samtools算法,兼容多種數據格式,準確度高,定位快速;?
(3)癌癥體細胞突變鑒定,使用VarScan算法,兼容數據種類多,準確度高,輸入輸出符合公開標準;?
經過上述工作流整合方法,能夠快速的通過比較同一病人正常和癌癥組織測序結果,從而鑒定出癌癥中發生的體細胞突變。?
所述的工作流整合算法為GPU算法,利用GPU的高速浮點計算和并行特性,可以大幅提高算法的運算速度,達到硬件加速的效果。?
所述的工作流整合算法中,進一步設計匹配了使用GPU加速的軟件,通過硬件加速提高了工作流效率。?
本發明的優點在于:該算法整合了測序數據分析的完整工作流,能夠免去數據分析使用者自行篩選并優化特定程序/程序集的步驟,同時優化整合后的算法在運算效率上大為提高,能夠更為迅速的反饋測序數據分析結果。?
附圖說明
圖1.癌癥體細胞突變基因測序分析數據工作流示意流程圖。?
具體實施方式
下面結合具體實施例對本發明作進一步說明,但不應以此限制本發明的保護范圍。?
原始數據來源于Illumina?Hiseq?2000,數據格式為FastQ,讀長為100bp。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京微旋基因技術有限公司,未經北京微旋基因技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410571652.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





