[發明專利]一種基因序列數據處理方法、裝置及系統在審
| 申請號: | 201810296700.8 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN108537006A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 朱紅 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20;G06F19/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因序列 程序運行 數據處理 子結果 作業調度系統 裝置及系統 腳本 源代碼 參考基因序列 多節點計算機 數據處理結果 計算機集群 軟硬件環境 并行處理 基因數據 集群資源 腳本運行 修改軟件 因子序列 多節點 集群 適配 操作系統 申請 投遞 參考 輸出 | ||
本申請實施例公開了一種基因序列數據處理方法、裝置及系統,所述方法包括根據設定的拆分規則,對參考基因序列進行拆分,獲得M組參考基因子序列;生成M個程序運行腳本,將所述M個程序運行腳本投遞到所述多節點計算機集群的作業調度系統中進行計算,獲得M個基因序列處理子結果,其中,每個程序運行腳本運行結束后輸出一個相應的基因序列處理子結果;對所述M個基因序列處理子結果進行匯總,獲得基因序列數據處理結果。有益效果:1、利用集群資源多節點并行處理基因數據,從而縮短數據處理時間;2、本申請并不涉及修改軟件源代碼,易于實現;3、沒有太大的操作系統/軟硬件環境依賴,可以適配于各種計算機集群和各種作業調度系統。
技術領域
本申請涉及計算機技術領域,特別是涉及一種基因序列數據處理方法、裝置及系統。
背景技術
生物信息學(Bioinformatics)是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的學科,它通過綜合利用生物學、計算機科學和信息技術而揭示大量而復雜的生物數據所賦有的生物學奧秘。隨著生物信息學數據量的爆發,各種用于處理生物信息學數據的軟件也層出不窮。
以基因測序為例,其主要包括測序數據比對、比對數據預處理、查找突變等三個主要步驟,分別涉及到bwa、picard和GATK三個常用軟件。具體過程可以理解為:在測序數據比對步驟把每一個測序數據比對到基因組的相應位置的過程;比對完成過后,在比對數據預處理步驟中對比對結果進行化;最后在查找突變步驟中查看整個基因組中每個位置是否存在突變、及突變是否致病等臨床診斷所需的信息。其中,測試數據可以為從測序儀產出的非常小的基因片段(一般是100~200個堿基長度,堿基是基因中的最小單元,人的基因組包含了30億個堿基)。
但是,相較于數據的爆發式增長,大多數的生物信息學軟件的設計都是基于單線程運行或者是單節點運行的,效率較低。隨著精準醫療概念的提出,基因測序及相應的數據處理技術越來越多的開始從實驗室走向臨床。和實驗室不一樣的是,臨床對于數據處理的時效性有較高的要求。例如,人們希望測序和數據處理像驗血一樣,可以在一個小時內拿到測試結果。但是目前基因數據從測序儀上進行測序需要數小時到一天的時間,而測序得到的數據進行分析并拿到分析報告又需要耗費約一天的時間,這樣的時效性對其臨床應用造成了較大的阻礙。
發明內容
本申請實施例中提供了一種基因序列數據處理方法、裝置及系統,以利于解決現有基因序列數據處理效率較低的問題。
第一方面,本申請實施例提供了一種基因序列數據處理方法,應用于多節點計算機集群,所述方法包括:
根據設定的拆分規則,對參考基因序列進行拆分,獲得M組參考基因子序列;
生成M個程序運行腳本,將所述M個程序運行腳本投遞到所述多節點計算機集群的作業調度系統中進行計算,獲得M個基因序列處理子結果,其中,每個程序運行腳本運行結束后輸出一個相應的基因序列處理子結果;
對所述M個基因序列處理子結果進行匯總,獲得基因序列數據處理結果。
可選地,所述根據設定的拆分規則,對參考基因序列進行拆分,獲得M組參考基因子序列,包括:
根據所述參考基因序列內染色體的數量,對參考基因序列進行拆分,獲得M組參考基因子序列,其中,每組參考基因子序列對應一條染色體。
可選地,所述根據設定的拆分規則,對參考基因序列進行拆分,獲得M組參考基因子序列,包括:
根據設定的分組數,對所述參考基因序列進行拆分,獲得M組參考基因子序列,其中,任意兩組參考基因子序列的長度差值小于或等于預設閾值。
可選地,定義允許同時運行的程序運行腳本的最大數量N;
若所述N<M,所述將所述M個程序運行腳本投遞到所述多節點計算機集群的作業調度系統中進行計算,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810296700.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





