[發明專利]基于低深度高通量基因組測序的染色體拷貝數變異檢測裝置在審
| 申請號: | 202011635354.5 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112669901A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 張靜波;王偉偉;李小雨;伍啟熹;王建偉;劉倩;唐宇 | 申請(專利權)人: | 北京優迅醫學檢驗實驗室有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/10;G16B30/00 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 孫怡 |
| 地址: | 100195 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 通量 基因組 染色體 拷貝 變異 檢測 裝置 | ||
1.一種基于低深度高通量基因組測序的染色體拷貝數變異檢測裝置,其特征在于,所述裝置包括:檢測模塊、數據質控模塊、數據預處理模塊、數據校正及處理模塊和判斷模塊;
所述數據校正及處理模塊:將待測樣本基因組通過質控和窗口劃分、歸一化后獲得的每個bin的ratio中的重復序列和群組CNV剔除后,進行進一步優化,并對排除母源污染后的候選CNV區域進行Z檢驗;
所述優化包括:
(1)根據待測基因組每條常染色體的平均ratio,計算絕對偏差的中位數MAD,剔除絕對偏差大于MAD值1倍的染色體,得到剩余的常染色體,再通過所述剩余的常染色體的bin的reads數的均值對全部染色體進行重歸一化;
(2)性染色體處理:通過閾值來判斷待測樣本的性別,所述閾值由如下方法獲得:統計大量流產組織樣本的h,利用聚類算法,獲得所述閾值;其中,h=2a/(1+a),a為待測樣本X染色體與參考基因組hg19比對后唯一reads的比例與待測樣本Y染色體與參考基因組hg19比對后唯一reads的比例之比;當判斷待測樣本為男性時,對其性染色體上每個bin的ratio進行如下校正:
ratiochrX_corrected=ratiochrX+median(ratioautosome)/2;
ratiochrY_corrected=ratiochrY+median(ratioautosome)/2;
其中,ratiochrX,ratiochrY分別代表性染色體X、Y上每個bin的ratio,ratiochrX_corrected,ratiochrY_corrected分別代表校正后的性染色體X、Y上每個bin的ratio,median(ratioautosome)代表步驟(1)中通過所述剩余的常染色體進行重歸一化后的每個bin的ratio的中位數;
當判斷待測樣本為女性時,則忽略Y染色體信息;
將校正后的性染色體上每個bin的ratio與常染色體上每個bin的ratio一同進行下一步操作;
(3)對每個bin的ratio進行GC校正和mappability校正后,通過計算全部正常對照樣本數據庫中校正后的bin的ratio的均值和標準差,構建加權線性回歸模型,權重為對應位置校正后bin的ratio的標準差,從而校正不同染色體基線帶來的偏差,計算出的殘差x,即為待測樣本每個bin的ratio;
(4)針對常染色體和性染色體分別進行PCA降噪;
以正常對照樣本數據庫中的每一個陰性參考集樣本的數據進行矩陣構建,具體以n個陰性參考集樣本的m個bin構造一個n*m的矩陣X,其中每一項都是陰性參考集樣本中bin的殘差x,首先將X的每一行進行中心化,即減去每行的均值,計算中心化后矩陣X的協方差矩陣XXT,利用特征值分解矩陣得到特征值與特征向量W,將待測樣本的殘差x,構建1*e的矩陣T,旋轉到相同的基上獲得T',T'=TW,通過減去前k個主成分重建測試集x';e為待測樣本的bin的個數,e=m;
在進行常染色體PCA降噪時,正常對照樣本數據庫中陰性參考集樣本的男女性別比例無統計學差異;
在進行性染色體PCA降噪時,正常對照樣本數據庫中陰性參考集樣本的性別僅對應為男性或女性;
k值的確定:
利用PCA降噪后數據的殘差與降噪前數據的殘差的比值計算信息損失量R,評估降噪后數據信息丟失的情況來確定k值,具體步驟如下:
將多例通過質控的已知核型結果的陽性樣本基因組按100Kb進行窗口劃分后合并臨近窗口獲得窗寬為2Mb的窗口,設置不同的k值,計算陽性區域的信息損失量R,損失量R的計算公式如下:
xi代表窗寬為2Mb時的bin的ratio的均值,x′i代表窗寬為2Mb時進行所述PCA降噪后bin的ratio的均值,n代表陽性區域為2Mb窗口的個數;當信息損失量R小于0.05時,所對應的k值最終用于待測樣本的PCA降噪;
(5)采用CBS算法進行分割,根據每個segment的ratio確定候選CNV區域;
(6)排除母源污染:當chrX和chrY同時存在整條染色體異常時,且步驟(2)中校正后的X染色體的bin的ratio的均值和Y染色體的bin的ratio的均值之和接近0且校正后X染色體的ratio均值偏多時,則認為是母源污染導致的假陽;
所述Z檢驗包括:
將正常對照樣本數據庫中的每一個陰性參考集樣本經數據校正及處理模塊所述進一步優化,獲得每個bin的ratio;分別計算每個陰性參考集樣本與待測樣本的分割片段相同的染色體區域的bin的ratio的均值,獲得該染色體區域的ratio,之后再計算所有陰性參考樣本在與待測樣本的分割片段相同的染色體區域的ratio的均值和標準差,根據Z檢驗方法,計算得到待測樣本的每個分割獲得的染色體區域的Z值;
其中,Rsample代表待測樣本分割獲得的染色體區域的ratio,mean Rreference代表陰性參考集樣本與待測樣本相對應的染色體區域的ratio的均值,sd Rreference代表陰性參考集樣本與待測樣本相對應的染色體區域的ratio的標準差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京優迅醫學檢驗實驗室有限公司,未經北京優迅醫學檢驗實驗室有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011635354.5/1.html,轉載請聲明來源鉆瓜專利網。





