[發明專利]高通量測序數據質量過濾方法和過濾裝置有效
| 申請號: | 201611236128.3 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN106777262B | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 陳晨;王震;于偉文 | 申請(專利權)人: | 上海華點云生物科技有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/182;G16B15/00 |
| 代理公司: | 北京邦信陽專利商標代理有限公司 11012 | 代理人: | 金璽 |
| 地址: | 200335 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通量 序數 質量 過濾 方法 裝置 | ||
本發明公開了一種對高通量測序數據進行質量過濾的方法和裝置,所述方法包括:根據所述高通量測序數據為并行計算做準備;通過并行計算過濾掉準備好的數據中質量不達標的數據。確定質量轉換方式;數據切分;生成并行計算的執行實體。將第一文件和第二文件分別轉換為第一RDD和第二RDD;將第一RDD和第二RDD分別切分為第一partition組和第二partition組;將第一RDD和第二RDD合并為第三RDD;將第三RDD切分為第三partition組。生成對第三partition組進行并行計算的執行實體task。采用本發明的技術方案,能夠大大提高對高通量測序數據進行質量過濾的執行速度。
技術領域
本發明涉及生物和計算機領域,特別涉及通過大數據技術對高通量測序數據進行質量過濾的方法和裝置。
背景技術
基于高通量測序數據尋找和致病基因、癌癥治療、個性化用藥相關的染色體突變位點為臨床應用提供了不可估量的前景。由于測序技術的不斷進步,獲取到的數據越來越多,如何快速地處理不斷增加的高通量測序數據已成為亟待解決的問題。
在獲取到高通量測序數據后,需要對原始數據進行過濾,將低質量的數據過濾掉,保留高質量的數據進行下一步處理。目前常用的過濾軟件Trime對1.1G X 2的高通量測序數據進行雙端過濾需要九分鐘以上,隨著數據的不斷增大,質量過濾需要的時間也越來越長。如何縮短質量過濾消耗的時間,讓高質量的數據盡快地進入下游的分析環節,從而縮短科研人員、患者等待分析結果的時間,已成為亟待解決的問題。
發明內容
有鑒于此,本發明基于分布式計算框架提供了一種對高通量測序數據進行質量過濾的方法和裝置,能夠將低質量的數據過濾掉,與以往的過濾方法相比,大大提升了處理速度。
本發明的實施例提供了一種對高通量測序數據進行質量過濾的方法,所述方法包括:
根據所述高通量測序數據為并行計算做準備;
通過并行計算過濾掉準備好的數據中質量不達標的數據。
優選地,所述根據所述高通量測序數據為并行計算做準備包括:
根據所述高通量測序數據中的質量數據確定質量轉換方式;
對已確定質量轉換方式的高通量測序數據進行切分;
生成對切分后的數據進行并行計算的執行實體。
優選地,所述對已確定質量轉換方式的高通量測序數據進行切分包括:
將包含已確定質量轉換方式的高通量測序數據的第一文件和第二文件分別轉換為各自對應的第一RDD和第二RDD;
將第一RDD和第二RDD分別切分為各自對應的第一partition組和第二partition組;
根據第一文件和第二文件中對應的數據將第一RDD和第二RDD合并為第三RDD;
將第三RDD切分為第三partition組。
優選地,所述生成對切分后的數據進行并行計算的執行實體為:生成對第三partition組進行并行計算的執行實體task。
優選地,其特征在于,所述通過并行計算過濾掉準備好的數據中質量不達標的數據包括:
根據預定質量值閾值和質量值轉換方式通過執行實體對所述高通量測序數據并行地進行過濾;
根據預定序列長度閾值通過執行實體對保留下來的高通量測序數據并行地進行過濾。
優選地,所述根據預定質量值閾值、所述質量值轉換方式對所述高通量測序數據進行過濾包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海華點云生物科技有限公司,未經上海華點云生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611236128.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于多源異構數據集的數據查詢方法及裝置
- 下一篇:交互信息顯示方法及系統





