[發明專利]一種測序數據高效處理方法在審

申請號：	201810378325.1	申請日：	2018-04-25
公開（公告）號：	CN108763869A	公開（公告）日：	2018-11-06
發明（設計）人：	常珊;陸旭峰;許磊;張大為	申請（專利權）人：	江蘇理工學院
主分類號：	G06F19/22	分類號：	G06F19/22
代理公司：	常州佰業騰飛專利代理事務所(普通合伙) 32231	代理人：	高姍
地址：	213001 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	測序數據高通量測序并行計算參考序列高效處理比對質檢生物醫藥技術數據處理流程數據分析工具比對結果比對數據并行運算分析系統數據處理突變位點突變信息醫學研究云計算過濾架構開發
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種測序數據高效處理方法，其特征在于，包括如下步驟：

根據高通量測序數據為并行計算做準備；

根據高通量測序數據為測序數據準備參考序列；

通過并行計算過濾掉數據中質量不合格的數據；

通過并行計算完成測序數據與參考序列的比對；

通過并行計算提取比對數據中的SNP突變位點信息。

2.如權利要求1所述的一種測序數據高效處理方法，其特征在于，根據高通量測序數據為并行計算做準備，包括如下步驟：

搭建Hadoop集群；

將測序序列和參考序列上傳至HDFS上；

對測序序列進行分割，再將分割后的測序序列發送至集群各從機進行處理。

3.如權利要求2所述的一種測序數據高效處理方法，其特征在于，對測序序列進行分割，再將分割后的測序序列發送至集群各從機進行處理，包括如下步驟：

根據Hadoop設定的塊大小進行分塊，并將其發送到不同的map中進行處理；

在每個Map中使用序列reads的ID作為key，并將鏈標號、堿基序列、質量作為value；

分割完成后利用Reduce的sort功能將擁有相同的Key的序列組裝成一個reads塊存儲到HDFS中。

4.如權利要求1所述的一種測序數據高效處理方法，其特征在于，根據高通量測序數據為測序數據準備參考序列，對參考序列建立索引并將其與測序數據一同上傳至HDFS上。

5.如權利要求1所述的一種測序數據高效處理方法，其特征在于，通過并行計算過濾掉數據中質量不合格的數據，包括如下步驟：

數據質檢采用FastUniq軟件來進行；

集群各從機對分配到的測序序列同時進行質檢工作；

將質檢后得到的測序序列保存在HDFS上。

6.如權利要求1所述的一種測序數據高效處理方法，其特征在于，通過并行計算完成測序數據與參考序列的比對，包括如下步驟：

序列比對采用軟件為Bowtie2；

將參考序列按照染色體組進行相應的分割并建立索引；

使用Bowtie2比對時，將測序序列分別與各染色體組的參考序列進行比對；

將比對結果保存在HDFS上。

7.如權利要求1所述的一種測序數據高效處理方法，其特征在于，通過并行計算提取比對數據中的SNP突變位點信息，包括如下步驟：

準備dbSNP數據庫；

使用Samtools工具提取比對數據中的SNP突變位點信息；

將所得的結果文件保存到HDFS相應的結果目錄下。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于江蘇理工學院，未經江蘇理工學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810378325.1/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】