[發明專利]一種生物信息學高性能計算平臺的存儲配置以及優化策略在審
| 申請號: | 201410203845.0 | 申請日: | 2014-05-15 |
| 公開(公告)號: | CN103984507A | 公開(公告)日: | 2014-08-13 |
| 發明(設計)人: | 金蓮 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06;G06F19/24 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 張靖 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生物 信息學 性能 計算 平臺 存儲 配置 以及 優化 策略 | ||
技術領域
本發明涉及一種生物信息學高性能計算平臺的存儲配置思路以及存儲優化策略,屬于計算機科學和生物信息學的交叉學科。
技術背景
生物信息學利用應用數學、信息學、統計學和計算機科學的方法研究生物學的問題。目前的生物信息學基本上只是分子生物學與信息技術(尤其是互聯網技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。目前主要的研究方向有:序列比對、基因識別、基因重組、蛋白質結構預測、基因表達、蛋白質反應的預測,以及建立進化模型。
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。
在基因組學研究方向,測序技術是重要的研究手段,對于測序數據的分析就需要借助高性能計算平臺完成,且需要一個高性能、高可擴展的統一數據存儲池,來提供大數據的持續訪問、處理、加工和共享等功能,也要對存儲池進行優化的配置以及合理的管理。
由于二代測序數據激增,近年生物信息的數據存儲已經成為生物信息學者,高性能計算制造者,存儲生成商頭痛的問題,因為沒有一套完善的方案能夠解決生物信息數據量大,讀寫頻繁,數據安全,數據備份等諸多問題,因此存儲是生物信息學集群的主要瓶頸。由于熟悉生物信息學的專家不熟悉具體的計算系統的配置,高性能計算專家對生物信息分析的流程和資源需求也知之甚少,所以設計生物信息學的存儲配置方案以及優化方法十分必要。
本發明主要就生物信息計算中存儲這一主要瓶頸展開說明,首先提出一種存儲配置策略,隨后給出存儲優化方法。
由于生物信息學的數據量增長迅速,數據讀寫頻繁,用戶量大,并發度高,且有大量的中間文件存放,輸出文件保存時間長,因此存儲方案選擇是需要滿足大容量,高性能,高可用,可擴展,可管理,按需服務的特點。目前常用的NFS文件系統,由于擴展性差,維護困難的特點,很難滿足生物信息學集群的需求。
發明內容
本發明要解決的技術問題是:提出一種生物信息學計算平臺的存儲配置方案,并提出存儲系統的優化方案。
本發明所采用的技術方案為:
一種生物信息學高性能計算平臺的存儲配置以及優化策略,先確定適用于生物信息學平臺的的存儲方案配置,確定存儲空間,存儲節點內和計算節點的網絡鏈接方式,磁盤配額的設定,磁盤區間劃分;對于存儲性能優化方面使用自動精簡存儲容量、重復數據刪除、選擇性數據壓縮方法對存儲系統進行優化。
在生物信息學計算中數據主要分為短生命周期數據和長生命周期數據兩類。短生命周期周期數據主要是計算過程生成的中間結果數據,長生命周期數據是計算的原始數據和計算結果數據。不同類型的數據對服務品質的要求大相徑庭:計算中間結果數據生命周期很短,使用后就可以清除,不過中間結果數據存取更為頻繁,容量也比原始數據和結果數據大很多,因此更看重數據帶寬和存儲容量。原始數據和最終結果數據比中間結果數據保存時間更長,不過存取相對頻率低,因此數據帶寬略低于中間結果,但可靠性要求更高。因此,將整個計算存儲空間至少劃分成兩個不同的文件系統實例:計算文件系統和數據文件系統,保存不同類型的數據。
選用目前全球最佳可擴展性的并行文件系統—Lustre,該文件系統包括三個組件:Lustre客戶端、元數據服務器(MDS)和對象存儲服務器(OSS),所述存儲配置以及優化策略實現步驟如下:
1)首先進行元數據服務環境的搭建,包括元數據服務器和元數據存儲兩部分;?
2)搭建對象存儲服務環境:對象存儲服務環境的功能組件是對象存儲服務器和對象存儲設備,其中,對象存儲服務器接收和處理客戶端的數據對象請求;對象存儲設備保存Lustre文件系統的數據對象;對象存儲服務環境采用I/O節點配合FC?SAN存儲環境的方式,計算文件系統和數據文件系統配置不同的節點數目,生物信息學計算的存儲,按照1:1的比例分配計算文件系統和數據文件系統的比例;計算文件系統配置raid5,數據文件系統配置raid6;機器的配置要滿足:CPU高主頻,不少于8個物理核心,內存每核不低于4GB;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410203845.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無避讓式立體車庫
- 下一篇:一種防止屏幕偷窺的方法





