[發明專利]基于CPU-GPU異構復合式并行計算框架的密碼子偏差系數模型方法有效
| 申請號: | 201710332575.7 | 申請日: | 2017-05-12 |
| 公開(公告)號: | CN107168795B | 公開(公告)日: | 2019-05-03 |
| 發明(設計)人: | 章樂;陳鏡行;丁維龍;荊晨陽;馮計平 | 申請(專利權)人: | 西南大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;H04L29/08 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 400715*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 cpu gpu 復合 并行 計算 框架 密碼子 偏差 系數 模型 方法 | ||
本發明提供了一種基于CPU?GPU異構復合式并行計算框架的密碼子偏差系數實現方法,包括:在刀片機上建立集群,每臺刀片機作為一個節點;并將主節點同時設置為主節點和從節點;搭建CUDA框架環境,并進行網絡配置;對提交的批量作業目錄進行預處理,擬合輸出包含各個待處理任務文件實際HDFS存儲位置的任務清單到指定的目錄;定義對任務清單的劃分規則,并發送到節點中進行處理;獲取到單個任務文件的HDFS路徑,將其下載到本地節點后,整理為命令請求;并將文件內容和命令請求發送到GPU服務器上;在監控到GPU服務器端計算完成后,將輸出文件下載到本地,并上傳至HDFS。本發明在批量作業提交情況下實現作業劃分、并行處理以及內存計算,提高了密碼子偏性算法的效率。
技術領域
本發明涉及一種通過建立CPU-GPU異構復合式并行計算框架,優化密碼子偏差系數模型效率的方法,屬于生物大數據領域。
背景技術
隨著生物信息學的發展,人們通過大量研究生物分子信息結構和組織來深度學習基因組遺傳信息規律。而隨著測序技術的發展創新,如今的第三代測序技術達到了更加準確、快速、低成本的水準。以HISEQ X TEN測序儀為例,其推動了人類在分析遺傳信息規律的領域快速進步,但同時也形成了大量基因數據的存儲和分析效率問題。
其中有通過數學以及統計學,以改進算法為手段實現提升基因數據分析效率的方法,也有利用GPU圖形卡的物理特性,以其強大的高速并行能力來實現計算加速的途徑。其中CUDA-C就這兩者在一定程度上緩解了大規模生物數據計算的壓力,通過支持CUDA的GPU實現針對密碼子使用偏性算法(CAT)的單機并行計算,充分利用圖形處理的高計算性能,實現200倍加速比。但就目前而言,NCBI、EBI、DDBJ等生物數據庫依舊不斷地豐富著各個類型的基因數據,數據量的增長似乎并沒有停下腳步的趨勢。故而在數據分析處理以及數據存儲的問題上,我們急需找到新的突破點。
近年來隨著網格計算概念的提出以及云計算的實現,該方法在一定程度上可以理解為將分布式集群中軟、硬件資源的網絡共享。Hadoop作為現如今主流的云計算框架之一,具備高可靠性(按位存儲和強大的數據處理能力)、高擴展性(在可用的計算機集簇間分配數據并完成計算任務,這些集簇能夠方便的擴展到數以千計的計算節點中,并且針對于集群而言,能夠輕易的實現節點數量的擴展)、高效性(能夠在集群中動態的移動數據,并且能夠有效的保證各個節點的動態平衡)、高容錯性(自動保存數據的多個副本以保證數據的安全性和完整性)等優秀的特點。同時Hadoop支持Java、C、C++以及Python等語言進行開發,有著很高的易用性。而對于節點硬件要求的并不高,這使得Hadoop集群的搭建和使用成本也相對較低,在一定程度上提高了性價比。
現有技術中,目前采用的主要方案包括以下幾種:
就生物信息學本身而言,研究人員通過數學模型優化了傳統算法的適用性問題,并通過其研發的密碼子組分分析工具箱CAT對密碼子偏差系數模型CDC進行了實現。而后GPU并行加速的研究人員通過NVIDIA公司的CUDA編程模型對上述CAT軟件中CDC算法的部分不具備數據依賴關系的模塊實現了GPU的并行加速,發布了CDC算法的CUDA優化軟件CUDA-CDC。在現有技術中,例如公開號為CN102708088A、CN104536937A、CN104731569A、CN105335135A等中記載的技術方案中,其均是通過設定固定的master和slave節點,搭建結群框架。
現有技術主要存在的缺陷有以下幾點:
(1)無法解決當前多任務的串行處理問題。
(2)當前采用的刀片式服務器由于無法安插GPU設備而無法采用CPU、GPU同構模式。
發明內容
有鑒于此,為解決現有技術中存在的上述問題,本發明具體提供了如下技術方案:
本發明提供了一種基于CPU-GPU異構復合式并行計算框架的密碼子偏差系數實現方法,其特征在于,所述方法包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南大學,未經西南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710332575.7/2.html,轉載請聲明來源鉆瓜專利網。





