[發明專利]基于FPGA的面向基因測序串匹配算法的加速平臺及設計方法在審
| 申請號: | 201810698010.5 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108595917A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 李曦;王超;婁文啟;周學海 | 申請(專利權)人: | 中國科學技術大學蘇州研究院 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20;G06F19/28 |
| 代理公司: | 蘇州創元專利商標事務所有限公司 32103 | 代理人: | 范晴 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用處理器 讀取 字符串數據 基因測序 串匹配 算法 寫入 流水線方式 獨立IP核 匹配結果 硬件知識 加速器 固化 編程 部署 | ||
本發明公開了基于FPGA的面向基因測序串匹配算法加速平臺及設計方法,加速平臺包括PS(Program System)與PL(Program Logic)兩部分,PS端包含通用處理器以及DRAM以完成軟件端代碼的運行以及硬件部分的控制,PL端包含多個可根據需求固化的IP核來以實現相應任務,首先通用處理器將字符串數據寫入DRAM中,然后FPGA從DRAM中讀取字符串數據并開始計算,并把計算結果寫入到DRAM中,最后通用處理器從DRAM中讀取匹配結果。本發明加速器在FPGA上部署了多個用于計算的獨立IP核,以流水線方式運行,使得不具備硬件知識的編程者可以利用已有的FPGA資源輕松獲得良好的性能。
技術領域
本發明涉及基因測序算法的硬件加速平臺,具體涉及一種通用性好和靈活性高的基于FPGA的面向基因測序串匹配算法的加速平臺及設計方法。
背景技術
基因測序有很多種方法。但無論這些方法在實現上有什么不同,本質上它們都依賴DNA復制原理展開設計。DNA復制簡單來說就是DNA的自我增殖過程。在復制期間DNA慢慢打開雙鏈結構,并在各種引導酶的作用下分為兩個單鏈并生成新的匹配短鏈。之后游離在細胞核中的游離堿基就會在一系列酶的作用下,加入新生成的短鏈使短鏈慢慢延展。到了復制末期,原始DNA雙鏈完全打開,并分別與由游離堿基拼接而成的單鏈組成雙鏈結構。由于堿基配對的專一性,在沒有出現復制錯誤的情況下,兩條新的雙鏈在結構上是完全相同的,這樣就實現了一條變兩條的復制。
本文選取串匹配算法研究基因測序其原理就是堿基之間配對的唯一性。DNA是由四種不同的堿基組成的,一般簡記為A、T、C、G。四種堿基嚴格按照AT兩兩配對,CG兩兩配對原則執行配對。這樣一來,測量一段未知的基因片段,就可以借助一條已知片段與該未知片段進行匹配,當兩片段完全匹配時,已知片段的共軛序列就是所測目標的序列。下面簡單描述基因測序的串匹配流程,包含以下幾個步驟。
第一步先構造若干已知的堿基序列,并對這些堿基序列進行標記以便識別。常用的標記方法為同位素標記法。第二步進行堿基對的匹配,將目標序列與構造序列放入緩沖液中進行DNA的。在DNA復制過程中,目標序列會吸收預先構造的帶標記堿基進行延展,通過測量生成的新鏈的堿基序列就可以得到原鏈的序列。第三步是對短堿基序列的拼接。
隨著基因測序進入大數據時代,測序工程中包含龐大的數據量,傳統的計算機系統已經無法適應大數據的典型需求。目前,適用于大數據處理的平臺可分為軟件處理平臺與硬件處理平臺兩類。
云計算平臺和GPGPU平臺是兩種最為主流的大數據軟件處理平臺。1)云計算平臺。一般來說,云計算平臺由大量同構的基于CPU的單節點服務器構成,多個節點間互相配合、協同工作。云計算平臺編程模型大體上可以分為基于Map-Reduce計算模型和基于圖的計算模型兩種,兩種計算模型的本質都是利用任務級并行和數據集并行的手段來加速應用的執行。2)GPGPU平臺。GPGPU平臺是一種較為普及的并行加速平臺,每塊GPGPU處理器芯片內部往往由多個SM構成,每個SM由多個SP組成,每個SP就是一個計算單元。本質上來說,GPGPU是以SIMD的方式來利用數據級并行來加速任務的執行。目前,針對GPGPU平臺提出和實現了諸如CUDA、OpenCL和OpenACC等編程規范,這大大降低了基于GPGPU的應用的開發門檻,也使GPGPU成為了目前較為廣泛使用的并行加速平臺。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學蘇州研究院,未經中國科學技術大學蘇州研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810698010.5/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡妫纾焊怕誓P突騽討B模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





