[發明專利]利用血漿游離核酸檢測癌癥的深度學習方法和系統有效
| 申請號: | 202110021990.7 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112820407B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 汪小我;李嘉琦;魏磊 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G16H50/30 | 分類號: | G16H50/30;G16H50/20;G16B20/20;G16B20/50;G16B20/30;G16B30/00;G16B40/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 李巖 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 血漿 游離 核酸 檢測 癌癥 深度 學習方法 系統 | ||
1.一種利用血漿游離核酸檢測癌癥的深度學習方法,其特征在于,包括以下步驟:
使用核酸分子級別分辨率的甲基化狀態數據定義癌癥特異的差異甲基化區間,并從所述差異甲基化區間篩選得到富集分子分辨率級別的信息;
使用深度學習模型整合所述信息中核酸分子的序列信息和甲基化信息,并根據整合后的信息預測核酸分子來源;以及
計算所述核酸分子來源的最大后驗概率,根據所述最大后驗概率估計血漿中來自癌癥的核酸序列片段占比,以根據所述占比確定癌癥的風險結果。
2.根據權利要求1所述的方法,其特征在于,所述根據所述占比確定癌癥的風險結果,包括:
將所述占比作為似然值,根據所述似然值計算得到置信參數;
當所述置信參數最大時,將所述占比作為癌癥的風險參數,以確定癌癥的風險結果。
3.根據權利要求2所述的方法,其特征在于,
所述置信參數為:
其中,n為DNA片段的數量,pi表示使用深度學習模型估計第i條DNA片段來自于癌細胞的預測值,預測值與健康細胞的概率值為1-pi,r為所述占比;
所述風險參數為:
4.根據權利要求1所述的方法,其特征在于,還包括:
截掉訓練集中每條序列第一段前預設部分和第二段預設數量堿基,并選用雙核苷酸位點數大于等于預設值的單條讀段,其中,訓練集中健康血漿中DNA片段為第一標簽、癌癥實體瘤DNA片段為第二標簽;
將每一個堿基轉換成one-hot編碼,并將DNA片段的甲基化信息轉變成甲基化向量,根據兩個所述甲基化向量拼接得到輸入矩陣,以根據所述輸入矩陣訓練得到所述深度學習模型。
5.根據權利要求1所述的方法,其特征在于,所述使用核酸分子級別分辨率的甲基化狀態數據定義癌癥特異的差異甲基化區間,包括:
從待測區間中獲取健康血漿樣本和癌癥實體瘤樣本;
分別從所述健康血漿樣本和所述癌癥實體瘤樣本中取出所有測序得到的DNA片段,以分別計算所述健康血漿樣本和所述癌癥實體瘤樣本的甲基化率;
當所述健康血漿樣本和所述癌癥實體瘤樣本之間的最大或最小甲基化率的差值大于差異閾值時,確定所述待測區間為所述差異甲基化區間。
6.一種利用血漿游離核酸檢測癌癥的深度學習系統,其特征在于,包括:
篩選模塊,用于使用核酸分子級別分辨率的甲基化狀態數據定義癌癥特異的差異甲基化區間,并從所述差異甲基化區間篩選得到富集分子分辨率級別的信息;
預測模塊,用于使用深度學習模型整合所述信息中核酸分子的序列信息和甲基化信息,并根據整合后的信息預測核酸分子來源;以及
診斷模塊,用于計算所述核酸分子來源的最大后驗概率,根據所述最大后驗概率估計血漿中來自癌癥的核酸序列片段占比,以根據所述占比確定癌癥的風險結果。
7.根據權利要求6所述的系統,其特征在于,所述診斷模塊進一步用于將所述占比作為似然值,根據所述似然值計算得到置信參數,當所述置信參數最大時,將所述占比作為癌癥的風險參數,以確定癌癥的風險結果。
8.根據權利要求7所述的系統,其特征在于,
所述置信參數為:
其中,n為DNA片段的數量,pi表示使用深度學習模型估計第i條DNA片段來自于癌細胞的預測值,預測值與健康細胞的概率值為1-pi,r為所述占比;
所述風險參數為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110021990.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:天線組件及電子設備
- 下一篇:一種天然人造混合草皮及其制備方法





