[發明專利]基于眾核平臺上面向二代測序數據的序列比對方法及系統有效
| 申請號: | 202010213357.3 | 申請日: | 2020-03-24 |
| 公開(公告)號: | CN111443947B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 劉衛國;張金瀟;殷澤坤;劉美洋;張雯 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F9/30 | 分類號: | G06F9/30;G06F9/38;G16B30/10 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250101 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 平臺 面向 二代 序數 序列 方法 系統 | ||
本發明公開了基于眾核平臺上面向二代測序數據的序列比對方法及系統,包括:根據平臺計算能力,自適應的調整讀入的數據塊大小,實現計算與I/O的相互掩蓋;基于內存池策略利用預分配策略和輕量級的內存分配策略,減小內存開銷;充分利用處理器的向量處理單元,采用指令集對計算過程進行向量化并行。對于BWA?MEM算法,其整體性能有了顯著提升,程序整體性能取得了3.62倍的加速比;算法線程拓展性有了顯著改善;核心計算部分相比與原算法,在不同大小的數據集下取得的加速比情況為8.4~12.6。
技術領域
本發明屬于數據處理技術領域,尤其涉及基于眾核平臺上面向二代測序數據的序列比對方法及系統。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在先技術。
基因測序技術是基因組學中一個高速發展變化的領域。在目前的測序技術仍然在不斷改進、進一步提高性能的同時,新的測序技術的出現也層出不窮。由于下一代基因測序(Next Generation Sequencing,簡稱NGS)技術進步和測序成本下降的速度比計算機硬件行業的發展及相應計算能力增加的速度更快(NGS進步速度高于摩爾定律),NGS數據產生的速度與其計算分析能力之間的差距只會越來越大。縮小這個差距,加快NGS數據分析的處理過程,人們對于成本更低、速度更快、對插入和缺失等錯誤靈敏度和準確度更高、同時可以支持更長序列計算算法的需求也越來越強烈。
發明人在研究中發現,現有的面向二代測序數據的序列比對算法雖然在速度和精度上保持了良好的平衡,但經過分析仍然發現其存在計算與I/O相互掩蓋不足的流水線設計問題、內存分批開銷過大問題、以及未向量化等問題。這使得算法無法充分發揮其性能。
面向二代數據的序列:為新一代測序(NGS,Next Generation Sequencing)序列,區別于第一代測序技術測得的序列,數據量大,每條序列的長度在幾十到幾百。
當前針對面向二代數據的序列比對算法優化有如下幾個問題:
1.計算與I/O相互掩蓋不足的流水線設計問題;
2.程序中大量、頻繁的內存操作帶來的額外開銷過大;
3.核心計算部分未進行向量化。
發明內容
為克服上述現有技術的不足,本發明提供了基于眾核平臺上面向二代測序數據的序列比對方法,修改數據劃分方式,自適應的調整讀入的數據塊大小,從而更好的實現計算與I/O的相互掩蓋。
為實現上述目的,本發明的一個或多個實施例提供了如下技術方案:
基于眾核平臺上面向二代測序數據的序列比對方法,包括:
讀入數據:讀入基因測序儀測得的基因測序數據,根據基因測序的數據格式,對其中的堿基數據進行序列比對計算處理;
其中,序列比對計算處理步驟為:根據處理器計算性能,自適應的調整讀入的數據塊大小,利用處理器的向量處理單元,采用指令集對計算過程進行向量化并行;
基于內存池策略利用預分配策略和輕量級的內存分配策略對讀入的數據塊進行存儲。
進一步的技術方案,根據處理器計算性能,將第一次讀取的數據取一個較小的數據塊,通過信號量標記讀取的數據是否完成計算,在數據進行計算時讀取下一塊數據,計算完畢修改信號量結束當前讀取,進行計算,使用動態方法確定可變塊數據大小完成數據讀取與計算的掩蓋。
進一步的技術方案,在真正使用內存之前,先申請分配一定數量的內存塊備用,通過指針操作,模擬分配內存的過程,當程序有新的內存使用需求時,就從內存池中分出一部分內存塊,若內存塊不夠再繼續申請新的內存,對于每個線程,初始化一個內存池,線程內頻繁調用的計算部分,使用內存池分配內存,提高內存分配效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010213357.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動大蒜分瓣裝置
- 下一篇:一種基于區塊鏈的內容傳播溯源系統





