[發明專利]一種測序數據高效處理方法在審
| 申請號: | 201810378325.1 | 申請日: | 2018-04-25 |
| 公開(公告)號: | CN108763869A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 常珊;陸旭峰;許磊;張大為 | 申請(專利權)人: | 江蘇理工學院 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 高姍 |
| 地址: | 213001 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 測序數據 高通量測序 并行計算 參考序列 高效處理 比對 質檢 生物醫藥技術 數據處理流程 數據分析工具 比對結果 比對數據 并行運算 分析系統 數據處理 突變位點 突變信息 醫學研究 云計算 過濾 架構 開發 | ||
1.一種測序數據高效處理方法,其特征在于,包括如下步驟:
根據高通量測序數據為并行計算做準備;
根據高通量測序數據為測序數據準備參考序列;
通過并行計算過濾掉數據中質量不合格的數據;
通過并行計算完成測序數據與參考序列的比對;
通過并行計算提取比對數據中的SNP突變位點信息。
2.如權利要求1所述的一種測序數據高效處理方法,其特征在于,根據高通量測序數據為并行計算做準備,包括如下步驟:
搭建Hadoop集群;
將測序序列和參考序列上傳至HDFS上;
對測序序列進行分割,再將分割后的測序序列發送至集群各從機進行處理。
3.如權利要求2所述的一種測序數據高效處理方法,其特征在于,對測序序列進行分割,再將分割后的測序序列發送至集群各從機進行處理,包括如下步驟:
根據Hadoop設定的塊大小進行分塊,并將其發送到不同的map中進行處理;
在每個Map中使用序列reads的ID作為key,并將鏈標號、堿基序列、質量作為value;
分割完成后利用Reduce的sort功能將擁有相同的Key的序列組裝成一個reads塊存儲到HDFS中。
4.如權利要求1所述的一種測序數據高效處理方法,其特征在于,根據高通量測序數據為測序數據準備參考序列,對參考序列建立索引并將其與測序數據一同上傳至HDFS上。
5.如權利要求1所述的一種測序數據高效處理方法,其特征在于,通過并行計算過濾掉數據中質量不合格的數據,包括如下步驟:
數據質檢采用FastUniq軟件來進行;
集群各從機對分配到的測序序列同時進行質檢工作;
將質檢后得到的測序序列保存在HDFS上。
6.如權利要求1所述的一種測序數據高效處理方法,其特征在于,通過并行計算完成測序數據與參考序列的比對,包括如下步驟:
序列比對采用軟件為Bowtie2;
將參考序列按照染色體組進行相應的分割并建立索引;
使用Bowtie2比對時,將測序序列分別與各染色體組的參考序列進行比對;
將比對結果保存在HDFS上。
7.如權利要求1所述的一種測序數據高效處理方法,其特征在于,通過并行計算提取比對數據中的SNP突變位點信息,包括如下步驟:
準備dbSNP數據庫;
使用Samtools工具提取比對數據中的SNP突變位點信息;
將所得的結果文件保存到HDFS相應的結果目錄下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇理工學院,未經江蘇理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810378325.1/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





