[發(fā)明專利]腫瘤純度和平均倍體信息的預(yù)測方法、系統(tǒng)、存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010924523.0 | 申請日: | 2020-09-05 |
| 公開(公告)號: | CN112216344A | 公開(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計)人: | 李杰;夏祖恒;劉暢;袁細國 | 申請(專利權(quán))人: | 西安翻譯學院;西安電子科技大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B20/20;G16B5/00 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 黃偉洪 |
| 地址: | 710105 陜西省*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 腫瘤 純度 平均 信息 預(yù)測 方法 系統(tǒng) 存儲 介質(zhì) | ||
本發(fā)明屬于信息處理技術(shù)領(lǐng)域,公開了一種腫瘤純度和平均倍體信息的推測方法、系統(tǒng)、存儲介質(zhì)。從fasta文件中讀取標準序列,從bam文件中讀入測序讀段;利用BWA軟件對read段比對對齊,使用SAMtools提取readcount的值;定義Bin的長度,除去無用的位置和去除噪音,求出每個不包含缺失位置的bin的readdepth值;使用Free?C軟件檢測出拷貝數(shù)變異CNV區(qū)域;使用高斯混合模型確定loss區(qū)域的類型;確定迭代范圍和步長;采用偏差最小策略來篩選最優(yōu)的結(jié)果,確定此時的腫瘤純度和平均倍體為最終的結(jié)果。本發(fā)明防止噪音在模型中的傳播,得到較為可靠的結(jié)果;縮短了需要比對的數(shù)據(jù)量。
技術(shù)領(lǐng)域
本發(fā)明屬于信息處理技術(shù)領(lǐng)域,尤其涉及一種腫瘤純度和平均倍體信息的預(yù)測方法、系統(tǒng)、存儲介質(zhì)。
背景技術(shù)
高斯混合模型是一種對數(shù)據(jù)進行聚類的算法,它的基本假設(shè)是總體的分布中含有K個子高斯分布。整個算法最主要的是以下幾個概念:高斯分布:又叫正態(tài)分布,其數(shù)學期望μ決定了分布的位置,其標準差δ決定了分布的幅度。期望最大算法:在含有隱變量概率參數(shù)模型中,求解似然方程。該算法用于迭代求解高斯混合模型。極大似然估計:一種常見的統(tǒng)計方法,用于推測與一組樣本相關(guān)的概率密度函數(shù)的參數(shù)。
目前,針對新一代測序技術(shù)的腫瘤純度和平均倍體的檢測方法,主要有以下幾種:1.基于拷貝數(shù)的方法;通過計算腫瘤和正常基因組的拷貝數(shù)來估計腫瘤純度;2.基于SNV雜合位點的方法:考慮腫瘤樣本中帶有體細胞突變的雜合位點的等位基因的突變部分,來估計腫瘤的純度,或者同時估計出腫瘤的倍性;3.結(jié)合拷貝數(shù)變化和等位基因頻率的方法:結(jié)合拷貝數(shù)變化和正?;蚪M中雜合位點上等位基因頻率,來推斷腫瘤純度和倍性;
上述方法中,結(jié)合拷貝數(shù)改變的方法,在實踐中往往能獲得更好的準確度,同時方法本身也表現(xiàn)出更強的魯棒性。這是因為,在NGS數(shù)據(jù)中,總的讀數(shù)是非常大的,這就使得這種方法具有一定的統(tǒng)計學基礎(chǔ)?,F(xiàn)階段使用該方法來檢測腫瘤純度和倍性的主要思想可分為以下幾種:(1)通過確定腫瘤區(qū)域中映射到各個部分的reads服從的分布,建立概率模型來推斷腫瘤的純度和倍性。(2)通過結(jié)合全外顯子組測序(WES)數(shù)據(jù)來推斷腫瘤的純度和倍性。(3)利用讀段計數(shù),并結(jié)合一定的先驗知識,建立模型來推斷腫瘤純度。
通過上述分析,現(xiàn)有技術(shù)存在的問題及缺陷為:現(xiàn)有技術(shù)在腫瘤純度和平均倍體檢測中,對異常信息敏感,時間復雜度過大,計算時間長。
解決以上問題及缺陷的難度為:
1、如何在減少算法復雜度的基礎(chǔ)上,確保算法結(jié)果能滿足一定的準確度是困難的。2、數(shù)據(jù)帶有噪音是普遍現(xiàn)象,當噪音比較大的時候,保證算法依然能給出一個讓人接受的結(jié)果是困難的。
解決以上問題及缺陷的意義為:算法比較快的執(zhí)行速度和較為可靠的結(jié)果,可以滿足在某些特定應(yīng)用場景下的需求,這些應(yīng)用場景一般要求算法盡快給出結(jié)果。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種腫瘤純度和平均倍體信息的預(yù)測方法、系統(tǒng)、存儲介質(zhì)。
本發(fā)明是這樣實現(xiàn)的,一種腫瘤純度和平均倍體信息的預(yù)測方法,所述腫瘤純度和平均倍體信息的預(yù)測方法包括:
從fasta文件中讀取標準序列,從bam文件中讀入測序讀段;
利用BWA軟件對read段比對對齊,使用SAMtools提取readcount的值;定義Bin的長度,去除無用的位置和去除噪音,求出每個不包含缺失位置的bin的readdepth值;使用Free-C軟件檢測出拷貝數(shù)變異CNV區(qū)域;
使用高斯混合模型確定loss區(qū)域的類型;
確定迭代范圍和步長;
采用偏差最小策略來篩選最優(yōu)的結(jié)果,即當某一步計算出來的結(jié)果與實際的觀測值的偏差小于閾值時,確定此時的腫瘤純度和平均倍體為最終的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安翻譯學院;西安電子科技大學,未經(jīng)西安翻譯學院;西安電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010924523.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





