[發明專利]基于片段化模式預測腫瘤風險值的方法有效
| 申請號: | 202011193149.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112410422B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 李世勇;吳巍;茅矛;陳彥 | 申請(專利權)人: | 深圳思勤醫療科技有限公司 |
| 主分類號: | C12Q1/6886 | 分類號: | C12Q1/6886;G16B20/20;G16B30/00;G16B40/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 孫璐璐 |
| 地址: | 518000 廣東省深圳市鹽田區海山街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 片段 模式 預測 腫瘤 風險 方法 | ||
1.一種預測待測樣本來源的分值的方法,所述方法用于非診斷目的,其特征在于,包括:
(1)從所述待測樣本中獲取cfDNA樣本;
(2)基于所述cfDNA樣本,構建測序文庫;
(3)對所述測序文庫進行測序,以便獲得測序結果,所述測序結果由多個測序讀段構成;
(4)基于所述測序讀段,統計P100、P180、P250、峰谷間距和插入片段長度分布中峰值對應的片段長度;
(5)獲取待測樣本基因組,構建測序文庫并進行測序,基于測序結果中的測序讀段,以便獲得不同染色體區域中不同預定長度插入片段的測序讀段數目的比值,計算差異總和;
(6)對(4)和(5)獲得的結果使用機器學習的方法進行建模,基于建模結果預測待測樣本來源的分值,
其中,P100是指待測樣本的插入片段30~100bp的數量除以總的插入片段總數的數量的比值;
P180是指待測樣本的插入片段180~220bp的數量除以總的插入片段總數的數量的比值;
P250是指待測樣本的插入片段250~300bp的數量除以總的插入片段總數的數量的比值;
所述峰谷間距是指插入片段在小于150bp范圍內,每個波峰與與其相鄰的波谷對應長度±2bp的插入片段的測序讀段數目占樣本染色體的測序讀段的總數目的比例的差值;
所述插入片段長度分布中峰值對應的片段長度是基于統計樣本不同插入片段長度對應的測序讀段數目,測序讀段數目最多對應的片段長度,
所述差異總和的計算方法為將每個插入片段讀段數目加和的比值減去所有插入片段讀段數目加和的比值的中位值后的絕對值求和,公式如下:
Σabs(Si/Li-median(S1/L1,S2/L2,…,Sn/Ln));
其中,S為100~150bp的插入片段,L為151~220bp的插入片段,abs()指對括號內的值求絕對值,median()指對括號內的值求中位值,i為每個插入片段的讀段區間,n為插入片段的讀段區間總數,
所述機器學習建立的模型選自SVM、Lasso、GBM中的至少之一。
2.根據權利要求1所述的方法,其特征在于,所述待測樣本源自哺乳動物的血液、體液、尿液、唾液或皮膚。
3.根據權利要求2所述的方法,其特征在于,所述哺乳動物為人。
4.根據權利要求1所述的方法,其特征在于,在步驟(5)中,不同染色體區域中不同預定長度插入片段的測序讀段數目的比值通過以下方式獲取:
a)將人的參考基因組劃分為多個相同長度的窗口區間,任選地,所述窗口區間的大小為100kb;
b)確定每個窗口區間內所述不同預定長度插入片段的測序讀段數目,任選地,所述預定長度插入片段的長度為100~150bp或151~220bp;
c)確定每個窗口區間內所述不同預定長度插入片段的測序讀段數目的比值。
5.根據權利要求4所述的方法,其特征在于,在所述每個窗口區間內,進一步包括對所述預定長度插入片段的測序讀段數目進行校正處理。
6.根據權利要求5所述的方法,其特征在于,在所述每個窗口區間內,所述校正處理通過將在每個窗口區間內預定長度的插入片段的測序讀段數目的中位值加上片段數目殘差獲得。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳思勤醫療科技有限公司,未經深圳思勤醫療科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011193149.8/1.html,轉載請聲明來源鉆瓜專利網。





