[發明專利]基于Spark和SIMD的彈性分布式序列比對系統及方法在審
| 申請號: | 201710637194.X | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN107358061A | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 徐波;王超;周學海;李曦;陳香蘭;李昌龍;莊航;王茄力;王慶鳳 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F19/10 | 分類號: | G06F19/10;G06F17/30 |
| 代理公司: | 蘇州創元專利商標事務所有限公司32103 | 代理人: | 范晴,丁浩秋 |
| 地址: | 230027 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark simd 彈性 分布式 序列 系統 方法 | ||
1.一種基于Spark和SIMD的彈性分布式序列比對系統,其特征在于,包括一個主節點和與主節點連接的多個工作節點,所述主節點用于管理元數據和集群,包括基于分布式計算框架Spark的主節點、基于分布式內存文件系統Alluxio的主節點和Hadoop分布式文件系統的主節點;
所述工作節點用于數據的存儲和計算,包括存儲層和計算層,所述存儲層包括Alluxio和HDFS,所述計算層包括基于分布式計算框架Spark和SIMD指令集,基于分布式計算框架Spark通過中介模塊調用基于SIMD的序列比對算法進行序列比對。
2.根據權利要求1所述的基于Spark和SIMD的彈性分布式序列比對系統,其特征在于,所述中介模塊的執行包括以下步驟:
通過Spark的Scala類調用Java類,并進行對象和數據轉換;
通過Java類調用基于SIMD的序列比對算法,將計算結果返回給Java類;
Java類將計算結果返回給Scala類,并將Java對象轉換成Scala對象。
3.根據權利要求1所述的基于Spark和SIMD的彈性分布式序列比對系統,其特征在于,所述基于SIMD的序列比對算法包括分布式本地序列比對算法DSW、分布式全局序列比對算法DNW和分布式半全局序列比對算法DSG。
4.一種基于Spark和SIMD的彈性分布式序列比對方法,其特征在于,包括預處理階段、Map階段和Top K階段;
預處理階段,對查詢序列、參考序列數據集和評分矩陣進行抽取、清洗和轉換;
Map階段,將查詢序列與參考序列數據集中的每一條參考序列進行序列比對,通過中介模塊調用基于SIMD的序列比對算法進行序列比對,獲得序列比對結果;
Top K階段,獲取查詢序列與所有參考序列比對得分最高的K個結果。
5.根據權利要求4所述的基于Spark和SIMD的彈性分布式序列比對方法,其特征在于,所述序列比對結果包括參考序列名稱、最佳序列比對得分和路徑,路徑用開始位置、結束位置和Cigar表示。
6.根據權利要求4所述的基于Spark和SIMD的彈性分布式序列比對方法,其特征在于,所述基于SIMD的序列比對算法包括分布式本地序列比對算法DSW、分布式全局序列比對算法DNW和分布式半全局序列比對算法DSG。
7.根據權利要求4所述的基于Spark和SIMD的彈性分布式序列比對方法,其特征在于,所述中介模塊的執行包括以下步驟:
通過Spark的Scala類調用Java類,并進行對象和數據轉換;
通過Java類調用基于SIMD的序列比對算法,將計算結果返回給Java類;
Java類將計算結果返回給Scala類,并將Java對象轉換成Scala對象。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710637194.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多工位片料送料機
- 下一篇:一種用于管道加工的自動上下料裝置
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





