[發明專利]高通量測序數據質量過濾方法和過濾裝置有效
| 申請號: | 201611236128.3 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN106777262B | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 陳晨;王震;于偉文 | 申請(專利權)人: | 上海華點云生物科技有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/182;G16B15/00 |
| 代理公司: | 北京邦信陽專利商標代理有限公司 11012 | 代理人: | 金璽 |
| 地址: | 200335 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通量 序數 質量 過濾 方法 裝置 | ||
1.一種對高通量測序數據進行質量過濾的方法,其特征在于,所述方法包括:
根據所述高通量測序數據為并行計算做準備;
通過并行計算過濾掉準備好的數據中質量不達標的數據;
根據所述高通量測序數據中的質量數據確定質量轉換方式;
對已確定質量轉換方式的高通量測序數據進行切分;
生成對切分后的數據進行并行計算的執行實體;
所述對已確定質量轉換方式的高通量測序數據進行切分包括:
將包含已確定質量轉換方式的高通量測序數據的第一文件和第二文件分別轉換為各自對應的第一RDD和第二RDD;
將第一RDD和第二RDD分別切分為各自對應的第一partition組和第二partition組;
根據第一文件和第二文件中對應的數據將第一RDD和第二RDD合并為第三RDD;
將第三RDD切分為第三partition組;
所述生成對切分后的數據進行并行計算的執行實體為:生成對第三partition組進行并行計算的執行實體task;如果第一文件和第二文件中一一對應的兩個記錄中的質量行某一位置及該位置以前的質量數據的質量值均大于等于預定質量值閾值,且這兩個一一對應的記錄中的序列行的堿基數均大于等于預定序列長度閾值,那么滿足上述條件的高通量測序數據的記錄稱為質量達標;
第一文件和第二文件中的記錄是一一對應的,每一個記錄包括四行,其中序列行由A、T、G、C四種堿基組成;質量行中每一位置上的質量數據為該位置的堿基質量值的ASCII碼表示方式,質量行和序列行長度相等;
第一RDD和第二RDD中的記錄也是一一對應的, 而在通過并行計算對數據進行質量過濾時,需要同時遍歷第一RDD和第二RDD中對應的記錄,在進行并行計算以前,根據其中一一對應的記錄,將第一RDD和第二RDD合并為第三RDD。
2.根據權利要求1所述的對高通量測序數據進行質量過濾的方法,其特征在于,所述通過并行計算過濾掉準備好的數據中質量不達標的數據包括:
根據預定質量值閾值和質量值轉換方式通過執行實體對所述高通量測序數據并行地進行過濾;
根據預定序列長度閾值通過執行實體對保留下來的高通量測序數據并行地進行過濾。
3.根據權利要求2對高通量測序數據進行質量過濾的方法,其特征在于,所述根據預定質量值閾值、所述質量值轉換方式對所述高通量測序數據進行過濾包括:
如果所述高通量測序數據某一記錄中的質量行中的某一位置上的質量值小于預定質量值閾值,則通過執行實體并行地過濾掉所述質量行該位置及以后的數據,以及同一記錄中的序列行中的對應位置及以后的數據。
4.根據權利要求3對高通量測序數據進行質量過濾的方法,其特征在于,所述根據預定序列長度閾值對保留下來的高通量測序數據進行過濾包括:
在保留下來的高通量測序數據中,如果第一文件和第二文件相對應的兩個記錄中有任意一個記錄中的序列行長度小于預定長度閾值,則通過執行實體并行地過濾掉第一文件和第二文件中相對應的這兩個記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海華點云生物科技有限公司,未經上海華點云生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611236128.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于多源異構數據集的數據查詢方法及裝置
- 下一篇:交互信息顯示方法及系統





