[發明專利]UID測序、UID序列設計、UID去重質量值校正的方法及應用有效
| 申請號: | 201810450617.1 | 申請日: | 2018-05-11 |
| 公開(公告)號: | CN110491445B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 劉繼龍;劉足;葉明芝;程少敏;譚美華 | 申請(專利權)人: | 廣州華大基因醫學檢驗所有限公司;深圳華大醫學檢驗實驗室;深圳華大基因股份有限公司;天津華大醫學檢驗所有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30 |
| 代理公司: | 深圳鼎合誠知識產權代理有限公司 44281 | 代理人: | 李小焦;彭家恩 |
| 地址: | 510006 廣東省廣州市番禺區大學城小谷圍*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | uid 測序 序列 設計 質量 校正 方法 應用 | ||
本申請公開了一種UID測序、UID序列設計、UID去重質量值校正方法及應用。本申請方法包括UID序列設計和UID去重質量值校正步驟;UID序列設計包括預先為待測樣本添加較長UID;統計常規去重的重復序列組中的序列總數;再UID去重,統計重復序列組中的UID組數;擬合序列總數和對應UID組數;根據需要數據量,從擬合函數中獲得預期UID組數;利用R語言編程,模擬UID長度n取不同值時,UID添加到所有預期UID組數中,并確保所有組都連接不同UID概率95%或以上的最小n值,即最佳UID長度。本申請可動態設計UID長度,能在滿足UID隨機性前提下更少占用測序數據量;質量值校正,可根據質量值的提升能體現UID測序的精確性;運用到變異檢測算法中,能支撐更低頻變異檢出。
技術領域
本申請涉及UID測序技術領域,特別是涉及一種UID測序、UID序列設計、UID去重質量值校正的方法及應用。
背景技術
隨著液體活檢技術的興起和成熟,低頻變異的檢測成為了高通量測序技術很大的挑戰,為了提高低頻變異的檢出性能,各種新的實驗方法應運而生,其中影響力最大、發展最為迅速的當屬UID測序技術。UID是指唯一標識符,即英文unique?identifier的縮寫。UID測序技術,即在PCR操作之前為每個DNA片段加上一段固定長度的隨機序列,作為每個DNA片段的唯一標識符,其作用是在測序完成后,通過DNA測序片段與人類參考基因組hg19的比對位置信息、UID序列信息、比對方向信息和片段長度信息精確識別到屬于同一條原始DNA片段的所有PCR重復片段,配合UID特定的去重算法,能夠在去重的同時過濾掉測序錯誤和PCR錯誤,留下一條最精確的去重后片段,這種方法相對于傳統的去重方法,能得到更精確的去重后片段,進而能夠支撐更低頻率的變異檢出。
然而,目前的UID測序技術仍有待優化和改進。
發明內容
本申請的目的是提供一種新的UID測序方法,及該方法中采用的UID序列設計方法和UID去重質量值校正方法,以及這些方法的應用。
本申請采用了以下技術方案:
本申請的一方面公開了一種UID測序方法,包括UID序列設計步驟和UID去重質量值校正步驟;
UID序列設計步驟,包括預先為待測DNA樣本添加8-20bp的UID序列;對測序結果進行常規去重,統計每個常規去重的重復序列組中包含的序列總數;采用UID去重算法對常規去重的重復序列組進行第二次去重,并統計每個常規去重的重復序列組中包含的UID組數;將每個常規去重的重復序列組中的序列總數和對應的UID組數擬合,獲得兩者的擬合函數;其中,預先添加的8-20bp的UID序列是一段較長的UID序列,其目的是盡量保證UID序列的隨機性,即最大概率的讓每一條原始DNA模板連接的UID序列都是不一樣的,因此預先添加的UID序列是一段較長的約8-20bp的序列;
根據待測DNA樣本測序需要的常規去重后的重復序列組中的序列總數,根據擬合函數,獲得所需的預期UID組數;
本申請中,待測DNA樣本測序需要的常規去重后的重復序列組中的序列總數,就是UID去重算法進行去重前的數據量;在UID測序中,每個DNA原始模板都添加一個唯一標識符,因此,預期UID組數,實際上就是每個常規去重的重復序列組中的原始模板數量;
設UID序列的長度為n,則UID序列的組合數為4n,以預期UID組數為縱坐標,利用R語言編程,模擬計算n取不同長度時,將4n種可能的UID序列隨機添加到預期UID組數的原始模板中,確保預期UID組數的原始模板都連接不同UID序列的概率在95%或以上的,最小n值,即最佳的UID序列長度,以此長度設計所述UID序列。
可以理解,其中,概率在95%或以上,該數值越大相應的最小n值也會越大,UID序列就會越長,待測樣本中每個DNA片段添加的UID序列的唯一性也越好,但UID序列越長相應的測序數據浪費越大。因此,通常取概率值95%即可。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華大基因醫學檢驗所有限公司;深圳華大醫學檢驗實驗室;深圳華大基因股份有限公司;天津華大醫學檢驗所有限公司,未經廣州華大基因醫學檢驗所有限公司;深圳華大醫學檢驗實驗室;深圳華大基因股份有限公司;天津華大醫學檢驗所有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810450617.1/2.html,轉載請聲明來源鉆瓜專利網。





