[發(fā)明專利]一種測序數(shù)據(jù)GC偏向性校正的方法及其裝置有效
| 申請?zhí)枺?/td> | 202010436420.X | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111627498B | 公開(公告)日: | 2022-10-04 |
| 發(fā)明(設(shè)計(jì))人: | 林浩翔;況霓;黃毅;易鑫;楊玲;吳玲清 | 申請(專利權(quán))人: | 北京吉因加醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司;深圳吉因加醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B30/10;G16B40/00 |
| 代理公司: | 北京三聚陽光知識產(chǎn)權(quán)代理有限公司 11250 | 代理人: | 廖慧敏 |
| 地址: | 102206 北京市昌平區(qū)回龍觀鎮(zhèn)生命園路8號院*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 序數(shù) gc 偏向 校正 方法 及其 裝置 | ||
一種測序數(shù)據(jù)GC偏向性校正的方法,包括如下步驟:獲取基因組的測序數(shù)據(jù)比對數(shù)據(jù)可供計(jì)算分析區(qū)間R;從可供計(jì)算分析區(qū)間R中獲取最高頻率片段長度數(shù)F;通過對區(qū)間R進(jìn)行不重復(fù)的抽樣,抽樣數(shù)N小于或等于區(qū)間R的總長度;計(jì)算每一個(gè)抽出的位置P對應(yīng)的如下A)?B)的參數(shù):A)位置P到位置P+F之間的序列中的G堿基和C堿基的個(gè)數(shù)之和Gp;B)位置P上比對片段數(shù)Fp,所述比對片段的起始位置為位置P;匯總每一個(gè)位置上述的數(shù)值,對每一個(gè)Gp值進(jìn)行分層統(tǒng)計(jì),最終計(jì)算每一個(gè)Gp值對應(yīng)的GC片段比例;將測序深度除以Rgc進(jìn)行測序深度計(jì)算修正。本發(fā)明的GC偏向性校正方法構(gòu)建的模型,修正效果好。
技術(shù)領(lǐng)域
本發(fā)明涉及測序數(shù)據(jù)分析領(lǐng)域,特別是涉及一種測序數(shù)據(jù)GC偏向性校正的方法及其裝置。
背景技術(shù)
現(xiàn)代的測序包含了多個(gè)不同的步驟。第一步是樣品遺傳物質(zhì)的收集,例如DNA從血液中的提取。建庫,對DNA等遺傳物質(zhì)進(jìn)行打斷處理,對目標(biāo)長度的DNA碎片進(jìn)行篩選并進(jìn)行PCR的擴(kuò)增。最后是測序儀對建庫后的DNA進(jìn)行基因測序,并通過生物信息學(xué)的方法對測序儀下機(jī)的數(shù)據(jù)進(jìn)行分析處理。但在PCR擴(kuò)增的過程中往往會引入GC偏向性。基因組上G堿基和C堿基含量較低和較高的區(qū)域,測序的片段覆蓋得更少。通過觀察不同GC含量上面測序深度的分布,呈現(xiàn)單峰分布。而人類基因組大部分區(qū)域是低GC的區(qū)域,這些區(qū)域的測序深度都會偏低。而少部分GC偏向性較高的基因組區(qū)域又會出現(xiàn)偏高深度的情況。
GC偏向性導(dǎo)致測序深度在基因組區(qū)域上面的覆蓋度不均勻。這導(dǎo)致后續(xù)的各種生物信息學(xué)分析出現(xiàn)各種問題,例如基因組拷貝數(shù)分析會出現(xiàn)錯(cuò)誤的拷貝數(shù)擴(kuò)增或者減少,進(jìn)而導(dǎo)致腫瘤含量估計(jì)出現(xiàn)錯(cuò)誤以及SNP頻率估計(jì)有偏等。而目前,也有很多針對GC偏向性校正的方法(1、Yoon S,Xuan Z,Makarov V,Ye K,Sebat J.Sensitive and accuratedetection of copy number variants using read depth of coverage.GenomeRes.2009;19:1586;2、Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization.Bioinformatics.2011;27:268.A;3、ReadDepth:a Parallel R Package for detecting copy number alterations fromshort sequencing reads.PLoS One.2011;6:e16327.)。大部分都是通過設(shè)置一個(gè)較大的窗口例如幾十K到幾十M,統(tǒng)計(jì)每一個(gè)窗口上面的測序讀長(read)數(shù)目(count)或者測序片段(fragment)數(shù)目。并對每一個(gè)窗口進(jìn)行GC含量的統(tǒng)計(jì)。使用LOESS等方法對GC含量/count的數(shù)據(jù)進(jìn)行擬合,并通過read count減去擬合值或者除擬合值的方法進(jìn)行校正。但該方法對于偏向性較嚴(yán)重的測序數(shù)據(jù),校正效果并不理想。而且對于窗口大小的選取往往會遇到挑戰(zhàn),窗口大小往往受后續(xù)分析所約束,對于低深度的測序數(shù)據(jù),過小的窗口會導(dǎo)致readcount的波動過大,而窗口過大又會減弱校正的能力,目前還沒有一個(gè)比較好的方法去輔助決定窗口的大小,對于不同的數(shù)據(jù)選用不同的窗口參數(shù)又會為后續(xù)的分析帶來干擾。而且該方法并沒有考慮到基因組的拷貝數(shù)變異會影響read count這個(gè)因素。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)中的GC偏向性會導(dǎo)致測序深度在基因組區(qū)域上面的覆蓋度不均,這導(dǎo)致后續(xù)的各種生物信息學(xué)分析出現(xiàn)各種問題缺陷,從而提供一種測序數(shù)據(jù)GC偏向性校正的方法及其裝置。
為此,本發(fā)明提供了如下的技術(shù)方案:
本發(fā)明提供了一種測序數(shù)據(jù)GC偏向性校正的方法,包括如下步驟:獲取基因組的測序數(shù)據(jù)比對數(shù)據(jù)可供計(jì)算分析區(qū)間R;
從可供計(jì)算分析區(qū)間R中獲取最高頻率片段長度數(shù)F;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京吉因加醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司;深圳吉因加醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室,未經(jīng)北京吉因加醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司;深圳吉因加醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010436420.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 序數(shù)鐘表
- 一種時(shí)序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時(shí)序數(shù)據(jù)流分割方法、裝置及其存儲介質(zhì)
- 一種工業(yè)時(shí)序數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種時(shí)序數(shù)據(jù)的平滑處理方法和裝置
- 時(shí)序數(shù)據(jù)多層次語義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時(shí)序數(shù)據(jù)異常檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基因測序數(shù)據(jù)排序方法、集成電路及排序設(shè)備
- 在不中斷加速圖形接口處理的情況下進(jìn)入及退出電源管理狀態(tài)
- 負(fù)荷分散方法、負(fù)荷分散程序以及負(fù)荷分散裝置
- 全二維氣相色譜
- 用于進(jìn)行樣品分析的測試方法、測試裝置和測試設(shè)備
- 氣相色譜單元、用相同該單元的可擴(kuò)展氣相色譜系統(tǒng)及相關(guān)方法
- 具有對不良電接地的補(bǔ)償?shù)臑V波器布置
- 垃圾數(shù)據(jù)回收控制方法及其裝置
- 用于在無線通信系統(tǒng)中發(fā)送或接收信號的方法及其裝置
- 垃圾回收GC信息處理方法、Java虛擬機(jī)及計(jì)算機(jī)存儲介質(zhì)
- 一種Java垃圾回收監(jiān)控方法及終端





