[發明專利]基于高通量測序和高斯混合模型的拷貝數變異檢測方法有效
| 申請號: | 201810654434.1 | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN108875311B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 孫良丹;甄琪;王文俊;李報 | 申請(專利權)人: | 安徽醫科大學第一附屬醫院 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B40/00 |
| 代理公司: | 合肥天明專利事務所(普通合伙) 34115 | 代理人: | 趙瑜;金凱 |
| 地址: | 230032 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 通量 混合 模型 拷貝 變異 檢測 方法 | ||
1.基于高通量測序和高斯混合模型的拷貝數變異檢測方法,其特征在于,包括以下步驟:
S1、數據的生產與預處理:對實驗樣本的基因組DNA進行高通量測序,比對測序讀段至參考基因組,計算實驗樣本的平均測序深度,且將參考基因組按預設的長度劃分為窗口,計算窗口的平均測序深度和窗口的歸一化的平均測序深度;
所述實驗樣本的平均測序深度=比對上的測序讀段數目*測序讀段長度/參考基因組長度;
所述窗口的平均測序深度=窗口內比對上的測序讀段數目*測序讀段長度/窗口的長度;
所述窗口的歸一化的平均測序深度=窗口的平均測序深度/實驗樣本的平均測序深度;
S2、利用最大期望算法估計高斯混合模型的參數:高斯混合模型是指具有如下形式的概率分布模型:其中,K是分模型的數目,k是第k個分模型的代號,θ是所有分模型的參數,θk是第k個分模型的參數且μk是第k個分模型的期望,是第k個分模型的方差,αk是第k個分模型的系數,αk≥0且是高斯分布密度,稱為第k個分模型;
S3、窗口的拷貝數估計:將所有實驗樣本的某窗口的歸一化的平均測序深度作為觀測數據,帶入最大期望算法,估計高斯混合模型的參數,利用樸素貝葉斯的方法計算每個實驗樣本在該窗口屬于各分模型的概率;
S4、合并拷貝數一致率高的相鄰窗口:若相鄰窗口拷貝數一致的實驗樣本數超過90%,則認為這兩個窗口屬于同一個拷貝數變異,合并為一個窗口;循環合并窗口的過程,直到不再有相鄰窗口可以合并;合并后的窗口即為最終的拷貝數變異區域;
S5、確定最終的拷貝數和過濾:對步驟S4得到的拷貝數變異區域,按步驟S3的方法得到最終的拷貝數,利用高斯混合模型的概率過濾,若某拷貝數變異區域內90%以上的實驗樣本屬于所屬分模型的概率大于90%,則保留此拷貝數變異區域,否則去除此拷貝數變異區域。
2.根據權利要求1所述的基于高通量測序和高斯混合模型的拷貝數變異檢測方法,其特征在于,步驟S2中所述最大期望算法的步驟包括:
S21、對高斯混合模型的參數(μk,σk,αk)取初始值;
S22、E步:依據當前模型參數,計算分模型k對觀測數據yj的響應度
S23、M步:計算新一輪迭代的高斯混合模型參數,包括
S24、判斷是否收斂:若是,停止;若否,重復步驟S22~S24。
3.根據權利要求1所述的基于高通量測序和高斯混合模型的拷貝數變異檢測方法,其特征在于,步驟S3中所述利用樸素貝葉斯的方法是使用如下公式:其中,取使得P(k|yj)最大的k作為j樣本在該窗口的所屬分模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽醫科大學第一附屬醫院,未經安徽醫科大學第一附屬醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810654434.1/1.html,轉載請聲明來源鉆瓜專利網。





