[發明專利]一種基于單腫瘤樣本高通量測序微衛星不穩定性探測位點篩選方法有效
| 申請號: | 201911414501.3 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN110910957B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 孫大偉;柳毅;段小紅;承康平;周啟明 | 申請(專利權)人: | 求臻醫學科技(浙江)有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B25/10;G16B45/00 |
| 代理公司: | 重慶百潤洪知識產權代理有限公司 50219 | 代理人: | 陳付玉 |
| 地址: | 310000 浙江省杭州市臨*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 腫瘤 樣本 通量 測序微 衛星 不穩定性 探測 篩選 方法 | ||
1.在一種基于單腫瘤樣本高通量測序微衛星不穩定性探測位點篩選方法,其特征在于,包括以下步驟:
步驟S1:收集腫瘤/正常組織配對數據樣本,并獲取其覆蓋微衛星位點的測序片段分布;
步驟S2:對每個配對數據樣本的微衛星位點分布進行卡方檢驗,獲取每個微衛星位點為體細胞突變的統計概率,并經過校正計算產生用于判斷每個微衛星位點是否是體細胞位點的錯誤發現率;
步驟S3:根據每個微衛星位點是否為體細胞位點的錯誤發現率將微衛星位點分為體細胞位點或胚系位點,將樣本覆蓋率>10%的微衛星位點作為有效訓練位點輸入基于單腫瘤樣本的機器學習模型中用作模型訓練;
步驟S4:對單個有效訓練位點進行訓練,將該有效訓練位點的有效樣本數的80%作為訓練集,20%作為對照集分別用于機器學習模型的訓練和測試;訓練和測試結束后,若體細胞位點的樣本數和胚系位點的樣本數均大于5,對照集的曲線下面積>0.95,則該微衛星位點保留作為有效位點,同時生成一個有效位點模型,否則去除該微衛星位點;具體的,所述訓練步驟為,對訓練集中的有效樣本進行機器學習模型訓練,將訓練集樣本的體細胞位點和胚系位點信息作為模型建立的輸入,得到針對單腫瘤樣本的機器學習預測模型,將訓練集中單腫瘤樣本的位點信息BAM文件輸入單腫瘤樣本的機器學習預測模型,掃描所有訓練位點的分布,得到位點分布信息,根據訓練集中單腫瘤樣本的位點分布信息,訓練機器學習模型;所述測試步驟為,對測試集中的有效樣本進行機器學習模型測試,將測試集樣本的單腫瘤樣本的位點信息BAM文件輸入單腫瘤樣本的機器學習訓練模型,得到預測結果,通過預測結果計算微衛星不穩定性分值并預測測試集樣本微衛星不穩定性狀態,通過預測的測試集樣本微衛星不穩定性狀態與測試樣本原有判定的微衛星不穩定性狀態對比,結果符合說明測試位點為有效位點,得到有效位點模型;
步驟S5:經過訓練和測試后,得到所有有效位點及其有效位點模型;
步驟S6:使用MSIsensor軟件對樣本的數據掃描,預設有效位點為微衛星不穩定性位點的概率為p_cutoff;采用有效位點模型分別對對應的各樣本中支持的每個位點進行預測,
得到該樣本支持的位點i為微衛星不穩定性位點的概率為pi,i為正整數,通過比較pi和p_cutoff判定該位點是否為微衛星不穩定性位點。
2.根據權利要求1所述的一種基于單腫瘤樣本高通量測序微衛星不穩定性探測位點篩選方法,其特征在于,步驟S1中所述腫瘤/正常樣本配對數據的數據格式為全外顯子組的BAM數據。
3.根據權利要求1所述的一種基于單腫瘤樣本高通量測序微衛星不穩定性探測位點篩選方法,其特征在于,步驟S3中所述微衛星位點的分類依據為,錯誤發現率<0.05的微衛星位點標為體細胞位點,錯誤發現率>0.2的微衛星位點標為胚系位點。
4.根據權利要求1所述的一種基于單腫瘤樣本高通量測序微衛星不穩定性探測位點篩選方法,其特征在于,步驟S6中,所述微衛星不穩定性位點的判定方法為:若pi<p_cutoff,則該位點判別為1,即判定該位點i為微衛星不穩定性位點,否則該位點判別為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于求臻醫學科技(浙江)有限公司,未經求臻醫學科技(浙江)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911414501.3/1.html,轉載請聲明來源鉆瓜專利網。





