[發明專利]一種快速比對基因數據的方法和比對系統有效
| 申請號: | 201810706545.2 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108985008B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 史宏志;趙健;崔星辰;尹云峰 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B40/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 速比 基因 數據 方法 系統 | ||
本申請實施例公開了一種快速比對基因數據的方法,包括:FPGA從緩存中讀取待比對基因和參考基因,待比對基因長度為L;FPGA根據待比對基因和預設算法從參考基因中確定多個目標種子,目標種子為與待比對基因匹配的一定長度的基因序列;FPGA從多個目標種子選取相似度最高的種子作為最優種子;FPGA根據最優種子在參考序列中的位置截取預設長度的基因序列得到估計序列,估計序列的長度大于或等于最優種子的長度;FPGA將最優種子和估計序列通過計算最短編輯距離對最優種子進行評分,評分用于指示最優種子的準確性和真實性;FPGA根據最優種子的評分輸出最優的比對結果。可改善算法執行時的吞吐率性能,提高基因比對的效率。
技術領域
本申請涉及基因分析領域,尤其涉及一種快速比對基因數據的方法和比對系統。
背景技術
基因的研究也對人類的重大進步有著深遠的影響,基因數據比對也是生物信息學的基本組成和重要基礎,基因比對的基本方法是將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔,對應的相同或相似的符號排列在同一列上。堿基對可看成是組成DNA的基本單位,堿基對是一對相互匹配,根據一定的匹配規則被氫鍵連接起來的堿基,而組成堿基對的堿基包括A腺嘌呤,T胸腺嘧啶,C胞嘧啶,G鳥嘌呤,匹配規則是A—T,G—C。
基因數據對比是基因數據分析過程中耗時最長的步驟之一,該過程的性能直接影響基因測序技術可用性。目前廣泛采用的基因數據分析流程是(TheGenome AnalysisToolkit,GATK)流程,基因數據比對是其第一步,基因數據比對過程多采用bwa mem算法實現基因數據到參考基因序列的映射。
但該算法是以節省內存為目的進行設計的,算法結構較為復雜,主要是通過串行的方法比對基因,導致基因比對過程耗費資源過大、耗費時間過長,比對效率低下成為了整個基因數據分析過程的性能瓶頸。
發明內容
本申請實施例提供了一種快速比對基因數據的方法、主機、現場可編程門陣列(Field-Programmable Gate Array,FPGA)和比對系統。
有鑒于此,本發明第一方面提供了一種快速比對基因數據的方法,包括:
所述FPGA從緩存中讀取待比對基因和參考基因,所述待比對基因長度為L;
所述FPGA根據所述待比對基因和預設算法從所述參考基因中確定多個目標種子,所述目標種子為與所述待比對基因匹配的一定長度的基因序列;
所述FPGA從所述多個目標種子選取相似度最高的種子作為最優種子;
所述FPGA根據所述最優種子在所述參考序列中的位置截取預設長度的基因序列得到估計序列,所述估計序列的長度大于或等于所述最優種子的長度;
所述FPGA將所述最優種子和所述估計序列通過計算最短編輯距離對所述最優種子進行評分,所述評分用于指示所述最優種子的準確性和真實性;
所述FPGA根據所述最優種子的評分輸出最優的比對結果。
結合本申請實施例第一方面,在本申請實施例第一方面的第一種實施方式中,所述根據所述待比對基因和預設算法從所述參考基因中確定多個目標種子,包括:
根據所述待比對基因的堿基從所述參考基因中確定第一位置,所述第一位置為所述待比對基因與所述參考基因不一致的位置;
根據所述待比對基因和所述第一位置從參考基因中確定目標種子。
結合本申請實施例第一方面至第一方面的第一種實施方式,在本申請實施例第一方面的第二種實施方式中,所述預設算法包括:
伯羅斯惠勒變換BWT算法和哈希算法。
結合本申請實施例第一方面的第二種實施方式中的任一實施方式,在本申請實施例第一方面的第三種實施方式中,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810706545.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





