[發明專利]一種測序數據GC偏向性校正的方法及其裝置有效
| 申請號: | 202010436420.X | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111627498B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 林浩翔;況霓;黃毅;易鑫;楊玲;吳玲清 | 申請(專利權)人: | 北京吉因加醫學檢驗實驗室有限公司;深圳吉因加醫學檢驗實驗室 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B30/10;G16B40/00 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 廖慧敏 |
| 地址: | 102206 北京市昌平區回龍觀鎮生命園路8號院*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 序數 gc 偏向 校正 方法 及其 裝置 | ||
1.一種測序數據GC偏向性校正的方法,其特征在于,包括如下步驟:獲取基因組的測序數據比對數據可供計算分析區間R;
從可供計算分析區間R獲取最高頻率片段長度數F;
通過對可供計算分析區間R進行不重復的抽樣,抽樣數N小于或等于可供計算分析區間R的總長度;計算每一個抽出的位置P對應的如下A)-B)的參數:
A)位置P到位置P+F之間的序列中的G堿基和C堿基的個數之和Gp;
B)位置P上比對片段數Fp,所述比對片段的起始位置為位置P;
匯總每一個位置上述的數值,對每一個Gp值進行分層統計,得到每一個Gp值對應的所有位置的總數Ngc,每一個Gp值對應的所有位置上比對片段數Fp的總數Fgc,分別計算所有Fgc和Ngc的總和,得到SumFgc和sumNgc;計算放大系數z = sumNgc/sumFgc,最終計算每一個Gp值對應的GC片段比例Rgc=Fgc*z/Ngc;
對Rgc進行校正處理得到R’gc;
將測序深度除以R’gc進行測序深度計算修正;
Rgc進行校正處理步驟中,若Gp/F小于或等于最低限度或高于或等于最高限度,則所述Gp值對應的Rgc設置成為1;
所述最低限度為0.15;
所述最高限度為0.85;
若Gp/F位于最低限度和最高限度之間,則對Rgc進行數據平滑處理。
2.根據權利要求1項所述的測序數據GC偏向性校正的方法,其特征在于:獲取最高頻率片段長度數F的方法為:對基因組測序數據的比對數據進行小于或等于總片段數的抽樣,統計片段長度并記數,找到最高頻數對應的片段長度數F。
3.根據權利要求1-2任一項所述的測序數據GC偏向性校正的方法,其特征在于:在獲取基因組的測序數據比對數據可供計算分析區間R步驟中,包括排除基因組組裝缺失區間、基因組多變區域和/或發生拷貝數變化的區域的步驟。
4.一種測序數據GC偏向性校正的裝置,其特征在于,包括:
獲取基因組的測序數據比對數據可供計算分析區間R單元,用于獲取基因組可供計算分析區間R;
獲取最高頻率片段長度數F單元,用于從基因組測序數據的比對數據中獲取最高頻率片段長度數F;
GC片段比例Rgc計算單元,通過對可供計算分析區間R進行不重復的抽樣,抽樣數N小于或等于可供計算分析區間R的總長度;計算每一個抽出的位置P對應的如下A)-B)的參數:
A)位置P到位置P+F之間的序列中的G堿基和C堿基的個數之和Gp;
B)位置P上比對片段數Fp,所述比對片段的起始位置為位置P;
匯總每一個位置上述的數值,對每一個Gp值進行分層統計,得到每一個Gp值對應的所有位置的總數Ngc,每一個Gp值對應的所有位置上比對片段數Fp的總數Fgc,分別計算所有Fgc和Ngc的總和,得到SumFgc和sumNgc;計算放大系數z = sumNgc/sumFgc,最終計算每一個Gp值對應的GC片段比例Rgc=Fgc*z/Ngc;
測序深度計算修正單元,將測序深度除以Rgc進行測序深度計算修正;
Rgc校正處理單元,用于對Rgc進行校正處理得到R’gc;相應的測序深度計算修正單元為測序深度除以R’gc;
在Rgc校正處理單元中包括:
第一Rgc校正處理單元,用于在Gp/F小于或等于最低限度或高于或等于最高限度時,將所述Gp值對應的Rgc設置成為1;
第二Rgc校正處理單元,用于在Gp/F位于最低限度和最高限度之間時,將Rgc進行數據平滑處理;
所述最低限度為0.15;所述最高限度為0.85。
5.根據權利要求4所述的測序數據GC偏向性校正的裝置,其特征在于,
在獲取最高頻率片段長度數F單元中包括:
抽樣單元,用于對基因組測序數據的比對數據進行小于或等于總片段數的抽樣;
統計單元,用于統計所述抽樣單元中抽取的片段長度并記數,找到最高頻數對應的片段長度數F。
6.根據權利要求4-5任一項所述的測序數據GC偏向性校正的裝置,其特征在于,在獲取基因組的測序數據比對數據可供計算分析區間R單元中,包括排除基因組組裝缺失區間單元、排除基因組多變區域單元和/或排除發生拷貝數變化的區域單元。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京吉因加醫學檢驗實驗室有限公司;深圳吉因加醫學檢驗實驗室,未經北京吉因加醫學檢驗實驗室有限公司;深圳吉因加醫學檢驗實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010436420.X/1.html,轉載請聲明來源鉆瓜專利網。





