[發明專利]基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統有效
| 申請號: | 201210478392.3 | 申請日: | 2012-11-22 |
| 公開(公告)號: | CN103838985A | 公開(公告)日: | 2014-06-04 |
| 發明(設計)人: | 周茜;寧康;蘇曉泉;徐健 | 申請(專利權)人: | 中國科學院青島生物能源與過程研究所 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266101 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多核 cpu gpgpu 硬件 通量 序數 質量 控制系統 | ||
技術領域
本發明專利涉及一種用于生物信息學高通量測序數據質量控制的軟硬件結合的計算機分析系統,尤其是能夠快速的對高通量測序數據進行質量控制。
背景技術
高通量測序技術又稱“下一代”測序技術,是對傳統測序一次革命性的改變,能夠一次對幾十萬到幾百萬條DNA/RNA分子進行序列測定,使得對一個物種的轉錄組,基因組以及微生物群落的元基因組進行細致全貌的分析成為可能,越來越廣泛地應用于生物學及相關研究中。
與傳統的Sanger測序技術相比,新一代測序技術的通量提高了一到兩個數量級,能夠較經濟地對基因組進行高倍率的序列覆蓋,數據量更多(100MB至數G)。隨著高通量測序儀器性能的逐漸穩定和價格的不斷下降,其應用必然會越來越廣泛,尤其是小型化的測序儀器的廣泛應用,因此基于高通量測序數據的研究將會在數量上和應用領域上呈現井噴式的快速發展趨勢。由于高通量測序技術本身的限制及人為實驗的操作誤差,原始生成的高通量測序數據往往含有部分低質量序列,包括低質量堿基和污染序列等。這些低質量序列的存在將會極大地影響后續數據分析的結果,甚至將導致錯誤結果和結論。因此,質量控制是進行高通量測序數據分析必須的關鍵步驟之一。由于高通量測序數據往往具有上億條序列和幾百G的數據量,所以對應于高通量測序數據的質量控制,必須有具有相當運算能力的超級計算機和相應的分析軟件來實現。采用目前的普通分析方法利用單一的CPU計算機對幾億條序列進行逐條掃描并歸類統計,可能需要數天甚至一個月的時間,使數據分析成為了相關研究中的一大瓶頸。下一代測序技術所產生的高通量數據的質量控制問題給廣大研究人員在基于高通量測序數據的研究方面設置了硬件和技術方面的障礙。
發明內容
為了克服傳統計算機和分析方法無法滿足高通量測序數據分析要求這一不足,本發明根據高通量測序數據處理中數據可并行處理的特點,提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結合的高通量測序數據質量控制系統。
本發明采用的技術方案是多核CPU和GPGPU計算機以及構筑于其上的高效、統一的軟件平臺(圖1)。其特點是(1)高性能并行計算和存儲硬件系統;(2)高性能、統一的、可配置的并行化軟件平臺。
(1)高性能并行計算和存儲硬件
該硬件系統采用多路多核CPU和GPGPU進行大規模并行化計算。圖2是計算服務器的系統結構圖。其重點是:
首先,多路多核CPU并行化計算,采用4路處理器,處理器之間采用QPI總線連接。每路處理器具有8個獨立計算核心,配備三通道DDR3?RDIMM內存,并且適應于智能化的計算資源配置和負載平衡控制,同時也適應于云計算服務器的計算要求。
其次,GPGPU協助計算芯片的多尺度并行化計算能力:448個流處理器和高達1.03?Tflops的單精度計算峰值,板載6GB存儲器,同時可以在適當的情況下應付交互性和可視化方面的需求。
第三,高速緩存和高速總線:適應于并發式的測序數據分析任務的調配和協同工作環境在大規模任務分配上的需要。
最后,RAID磁盤陣列:通過RAID磁盤陣列存儲,不但提高中心服務器的響應速度和穩定性,而且有利于不定期的中心服務器更新。同時可應付云計算服務器的備份和升級需要。
(2)高性能、統一的、可配置的軟件平臺
高性能的軟件平臺包括低質量數據處理、污染序列的定性鑒定和污染序列的定量鑒定(圖3)。此系統被命名為QC-Chain軟件系統(http://www.computationalbioenergy.org/qc-chain.html,自主知識產權),其高性能數據分析步驟是:
首先,低質量數據處理是基于多核CPU并行計算。將輸入文件分割成小規模子數據,將不同的子數據分配到不同的CPU內核上,然后在眾多CPU內核上同時預測子序列的堿基質量、重復序列和接頭序列,并依次切除序列兩端的低質量堿基,過濾含有一定比例低質量堿基的序列,刪除其中的接頭序列和重復序列,最后將過濾后的數據結果合并到一起。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院青島生物能源與過程研究所,未經中國科學院青島生物能源與過程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210478392.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶有油密封的工作池的珩磨機
- 下一篇:從粗甘油生產二氧戊環化合物的方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡妫纾焊怕誓P突騽討B模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





