[發(fā)明專利]一種基于血漿DNA片段分析評估患癌風(fēng)險的方法和裝置有效
| 申請?zhí)枺?/td> | 202011541207.1 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112599197B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 管彥芳;李敏;王科;劉濤;易玉婷;戴平平;易鑫;楊玲 | 申請(專利權(quán))人: | 北京吉因加醫(yī)學(xué)檢驗實驗室有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G16H50/30 |
| 代理公司: | 深圳鼎合誠知識產(chǎn)權(quán)代理有限公司 44281 | 代理人: | 李小焦;郭燕 |
| 地址: | 102200 北京市昌平區(qū)回龍觀鎮(zhèn)生命園路8號院*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 血漿 dna 片段 分析 評估 風(fēng)險 方法 裝置 | ||
1.一種基于血漿DNA片段分析評估患癌風(fēng)險的裝置,其特征在于:包括微觀片段特征計算模塊、宏觀片段分布特征計算模塊、模型訓(xùn)練模塊和患癌風(fēng)險評估模塊;
所述微觀片段特征計算模塊,包括用于(a1)獲取待測對象的血漿DNA測序使用芯片的捕獲區(qū)間信息,及其測序下機數(shù)據(jù)經(jīng)過低質(zhì)量reads過濾和與參考基因組比對后的bam文件,將其視為低深度WGS數(shù)據(jù),分析其片段特征,以此評估患癌風(fēng)險;(a2)從所述bam文件中提取芯片的offtarget DNA片段;(a3)對所述offtarget DNA片段根據(jù)質(zhì)量進(jìn)行篩選,保留mapping質(zhì)量值大于或等于20的片段;(a4)使用samtools以leftmost coordinates方式對offtarget DNA片段的bam文件排序然后建立索引;(a5)使用窗口大小為5Mb的bin,統(tǒng)計bam文件中每個bin含有的長片段和短片段的數(shù)量,所述短片段的長度為100-150bp,所述長片段的長度為151-220bp,計算每個bin中短片段數(shù)量與長片段數(shù)量的比值ratio,根據(jù)ratio計算Z-score;(a6)每條染色體分為長臂p和短臂q,以染色體臂為單位計算每條染色體臂的Z-score,獲得22對常染色體39個臂的Z-score值;
所述宏觀片段分布特征計算模塊,包括用于(b1)對所述微觀片段特征計算模塊根據(jù)質(zhì)量進(jìn)行篩選獲得的offtarget DNA片段區(qū)域內(nèi)的reads數(shù)進(jìn)行統(tǒng)計,如果reads數(shù)滿足下采樣要求,則對其進(jìn)行下采樣獲得用于后續(xù)分析的bam文件;(b2)從步驟(b1)獲得的bam文件中提取DNA片段長度分布特征,作為宏觀片段分布特征;
所述模型訓(xùn)練模塊,包括用于獲取健康人和癌癥病人分別采用所述微觀片段特征計算模塊獲得的39個臂的Z-score值,以及健康人和癌癥病人分別采用所述宏觀片段分布特征計算模塊獲得的DNA片段長度分布特征;根據(jù)獲取的健康人和癌癥病人的39個臂的Z-score值和DNA片段長度分布特征,經(jīng)過機器學(xué)習(xí)pipeline進(jìn)行訓(xùn)練,并通過交叉驗證學(xué)習(xí)超參數(shù),同時學(xué)習(xí)模型參數(shù)獲得血漿DNA片段模式輔助評估患癌風(fēng)險模型;
所述患癌風(fēng)險評估模塊,包括用于根據(jù)所述微觀片段特征計算模塊獲得的39個臂的Z-score值,以及所述宏觀片段分布特征計算模塊獲得的DNA片段長度分布特征,應(yīng)用血漿DNA片段模式輔助評估患癌風(fēng)險模型來預(yù)測待測對象的患癌風(fēng)險。
2.根據(jù)權(quán)利要求1所述的裝置,其特征在于:所述微觀片段特征計算模塊中,根據(jù)ratio計算Z-score具體包括,使用局部加權(quán)線性回歸算法LOWESS對每條染色體多個bin的ratio列表進(jìn)行校正,得到ratio2列表;然后根據(jù)ratio2列表計算其均值以及標(biāo)準(zhǔn)差,根據(jù)公式一計算獲得Z-score;
公式一
公式一中,x為ratio2,為指定染色體臂的ratio2的均值,δ為指定染色體臂的ratio2的標(biāo)準(zhǔn)差。
3.根據(jù)權(quán)利要求1所述的裝置,其特征在于:所述39個臂的Z-score值具體包括1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q的Z-score值。
4.根據(jù)權(quán)利要求1所述的裝置,其特征在于:所述宏觀片段分布特征計算模塊中,下采樣要求為reads數(shù)大于3000000;并且,統(tǒng)一將reads數(shù)下采樣到3000000條,獲得下采樣后的bam文件用于后續(xù)分析。
5.根據(jù)權(quán)利要求1所述的裝置,其特征在于:提取長度在[95bp,420bp]區(qū)間的DNA片段進(jìn)行片段長度分布特征分析,并將其作為宏觀片段分布特征。
6.根據(jù)權(quán)利要求1所述的裝置,其特征在于:所述模型訓(xùn)練模塊中,獲取健康人和癌癥病人的DNA片段長度分布特征時,僅僅獲取offtarget DNA片段區(qū)域的bam文件的reads數(shù)滿足下采樣要求的樣本的DNA片段長度分布特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京吉因加醫(yī)學(xué)檢驗實驗室有限公司,未經(jīng)北京吉因加醫(yī)學(xué)檢驗實驗室有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011541207.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





