[發明專利]測序數據分析方法和設備及高通量測序方法有效
| 申請號: | 201810921895.0 | 申請日: | 2018-08-14 |
| 公開(公告)號: | CN110827920B | 公開(公告)日: | 2022-11-22 |
| 發明(設計)人: | 劉舒;劉晨;劉莉玲;黃金 | 申請(專利權)人: | 武漢華大醫學檢驗所有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;C12Q1/6869 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 趙天月 |
| 地址: | 430070 湖北省武漢市東湖新技術開發區高新*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 序數 分析 方法 設備 通量 | ||
本發明涉及基因測序領域,具體涉及一種測序數據分析方法和設備及一種高通量測序方法。所述測序數據包括疑似污染測序讀段,所述疑似污染測序讀段含有接頭匹配區,所述方法包括:基于所述疑似污染測序讀段的序列,確定分析窗口序列,所述分析窗口序列包括:接頭匹配區以及接頭毗鄰區;基于所述疑似污染測序讀段的對應測序讀段的序列,確定接頭毗鄰區對應序列;基于所述接頭毗鄰區對應序列與所述接頭毗鄰區的匹配水平,確定所述疑似污染測序讀段是否被接頭污染。利用本發明的方法和裝置,可以有效且全面去除接頭污染的測序讀段,保證接頭污染過濾后數據的堿基平衡性,而且能夠提高數據的準確度。
技術領域
本發明涉及基因測序領域,具體涉及一種測序數據分析方法和設備及一種高通量測序方法。
背景技術
二代測序原始數據下機后,在使用前通常首先會進行數據的過濾處理,包含去除接頭污染的reads(讀段),低質量的reads以及測序讀N的reads等。
接頭污染的reads是指當文庫構建的部分插入片段小于測序讀長時,會在測序的末端出現測到接頭序列的情況,那么含有接頭序列的插入片段即為接頭污染的reads。由于接頭序列非樣本本身實際插入片段的序列,故需要在測序完成后進行去除,以免影響到樣本堿基的隨機性和信息分析的準確性。
然而,如何過濾去除接頭污染的reads還需要進一步改進。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
本發明的發明人在研究過程中發現:
當將測序原始讀段末端得到的堿基序列與接頭序列進行匹配,如果比對結果呈現出:當容一個堿基的錯配后匹配接頭的程度能夠達到50%以上時,則認為該讀段為接頭污染的讀段,會將讀段整條進行去除,這種對于接頭污染的讀段的過濾方法存在著很多問題和缺點,表現在如下幾個方面:
第一,這種過濾方法不能有效去除所有的接頭污染的讀段。例如,當接頭的長度為34bp,通過這種過濾方式只能過濾掉至少能匹配接頭長度16bp以上的序列(容一個堿基錯配且匹配50%以上);而對于在15bp以下的接頭污染的讀段則無法去除。
而且,如果單純通過降低接頭污染所匹配的程度(例如降低為25%以上),即只要匹配接頭長度8bp以上的序列就能去除,但是由于8bp的序列特異性很差(通過研究發現8bp可以和大量基因組多處序列進行匹配),則可能會過濾掉樣本本身的序列,從而會誤殺到正常的讀段(即沒有接頭污染的讀段)。從而會造成過濾不準確,同時對于小于8bp匹配的接頭依然無法過濾干凈。
第二,這種過濾方法會導致過濾后的測序數據依然會存在堿基分離。由于過濾后的數據中依然存在部分接頭污染的讀段,而接頭污染是外源的固定序列,即會打破樣本本身基因組堿基的平衡性,造成A的含量不同于T,C的含量不同于G。
第三,影響測序數據的準確性和比對率。由于過濾后的數據中依然殘存部分接頭污染的讀段,由于接頭污染引入的接頭外源序列則無法匹配到參考基因組而影響到測序數據的準確性和比對率。
為此,本發明的發明人創造性的制定出一種利用插入片段序列并采用滑動式匹配原則的可以有效全面去除接頭污染reads的方法,保證測序數據的堿基平衡,并提高數據的準確性和比對率。本發明的方法可以打破完全依賴于接頭序列來確定接頭污染的讀段,而且采用本發明的方法使得最終獲得的測序數據更加精確,比對率更高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢華大醫學檢驗所有限公司,未經武漢華大醫學檢驗所有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810921895.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:奶瓶氣壓調整配件及允許具奶嘴的奶瓶進行喂食的方法
- 下一篇:一種旋翼測量裝置





