[發明專利]通過計算機程序模擬產生簡化DNA甲基化測序數據的方法有效
| 申請號: | 201710576797.3 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107451419B | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | 陸燕;孫喜偉;劉鵬淵;周莉媛 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B5/00 |
| 代理公司: | 33200 杭州求是專利事務所有限公司 | 代理人: | 劉靜;邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 計算機 程序 模擬 產生 簡化 dna 甲基化 序數 方法 | ||
本發明公開了一種通過計算機程序模擬產生簡化DNA甲基化測序數據的方法,可以用來評估不同簡化基因組甲基化(RRBS)測序數據比對軟件的效率以及相應數據分析平臺的可靠性,以此來確定最優的比對方法及相應的最優參數。本發明通過計算機程序模擬RRBS文庫構建和測序過程,根據CpGs甲基化水平的分布,產生與真實RRBS測序數據非常相近的仿真數據。該仿真數據除了模擬單個堿基水平的甲基化水平外,還模擬了真實數據的插入、缺失、單核苷酸變異和結構變異等其他特性以增加真實性。此外,本發明在模擬RRBS測序過程中,通過引入經驗誤差模型來模擬測序過程中出現的誤差,進一步增加了仿真數據的真實性。
技術領域
本發明屬于計算機技術模擬產生簡化DNA甲基化測序數據(生物信息學) 領域,具體涉及使用計算機程序模擬產生高仿真的簡化DNA甲基化測序數據的方法。
背景技術
DNA甲基化是指在DNA序列不改變情況下,通過DNA化學修飾影響生物過程或者改變遺傳表型。近年來,隨著研究的深入,研究者發現DNA甲基化作為一種重要的表觀遺傳學修飾,其在腫瘤的形成發生發展過程中扮演重要角色。除此之外,研究也表明DNA甲基化還可能參與X染色體沉默,基因組印記,轉座子沉默和干細胞分化等重要生物過程。因此,準確檢測基因組上差異甲基化區域(DMR)對研究包括腫瘤在內的一些復雜疾病有非常重要的作用。
隨著二代測序迅猛發展以及測序成本的降低,基于高通量測序和亞硫酸鹽處理的來研究甲基化的技術越來受到關注。其中最常見的是簡化DNA甲基化測序技術(RRBS)。與此同時,各種基于RRBS測序數據的后期比對工具也隨之發展,層出不窮;如何系統地評估這些比對工具的功效變得日趨重要。通常,由于真實RRBS測序數據的甲基化信息的實際情況無從得知,從而難以以此去評估相應的比對工具的可靠性;然而,使用計算機模擬的RRBS測序數據卻可以通過自主設定參數從而得知模擬數據的“真實”甲基化信息,提供基礎比較標準,從而能便捷有效地評估這些工具的表現,以此來確定最優的比對方法及相應的最優參數。
目前已知的甲基化測序數據模擬工具大多是基于先前的全基因組甲基化測序(WGBS)設計的,并不適合目前廣泛使用的RRBS測序技術數據,而且這些工具除了模擬甲基化信息外沒有模擬真實數據的其它特性。近來,也有一些基于RRBS測序的數據模擬工具,但是他們只是通過統計模型產生一些DNA甲基化數據,并非模擬實際測序得到的讀長(reads)數據,這些數據自然也不能用來評估相應拼接工具的可靠性。
發明內容
本發明的目的在于針對現有技術的不足,提供一種通過計算機程序模擬產生簡化DNA甲基化測序數據的方法,通過計算機程序模擬RRBS文庫構建和測序過程,根據基因組上的CpGs甲基化水平的分布,產生與真實RRBS測序數據非常相近的仿真數據。其中,該過程引入了測序經驗誤差模型模擬測序出現的誤差以增加仿真數據的真實性。該高仿真數據可以用來測試目前各種甲基化測序數據比對軟件的功效,以此來確定最優的拼接方法及相應的最優參數,也可用于后續新的比對工具的輔助開發。
本發明的目的是通過以下技術方案來實現的:一種通過計算機程序模擬產生簡化DNA甲基化測序數據的方法,具體包括以下四個步驟:
(1)模擬產生包含單堿基插入、缺失、單核苷酸變異和結構變異特性(變異參數可由用戶設定)的參考基因組序列,比如hg19;
(2)在步驟(1)得到的參考基因組上模擬CpG二核苷酸位點上的甲基化水平:由于人類基因組上的CpG位點的甲基化水平通常服從Beta分布,所以使用Beta統計模型來產生CpG位點的甲基化數值;此外,考慮到真實數據中鄰近CpG位點的強相關性,對100bp距離內的CpG位點的甲基化水平進行基于最大似然統計模型的修正;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710576797.3/2.html,轉載請聲明來源鉆瓜專利網。





