[發明專利]第三代測序比對算法在審
| 申請號: | 201780010771.0 | 申請日: | 2017-02-10 |
| 公開(公告)號: | CN108699601A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | W·H·王;P·T·阿夫沙爾 | 申請(專利權)人: | 斯坦福大學托管董事會 |
| 主分類號: | C12Q1/6874 | 分類號: | C12Q1/6874;G06F19/28;G06F19/22 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 張小勇 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 讀取 參考序列 比對算法 第三代 映射 比對 測序 聚體 | ||
公開用于將讀取序列與參考序列比對的方法、軟件和系統。在某些實施例中,所述方法、軟件和系統涉及確定在所述讀取序列的區域和所述參考序列的區域之間的k?聚體的分布的相似性以便確定所述讀取序列的所述區域是否映射到所述參考序列的所述區域。
本申請要求2016年2月11日提交的美國臨時專利申請第62/294,205號的權益,所述申請以全文引用的方式并入本文中。
本發明是在政府支持下在由美國國家衛生研究院(National Institutes ofHealth)授予的合同R01HG007834下進行。政府對本發明擁有一定的權利。
背景技術
全基因組測序已徹底改變生物和醫學驅動的全面表征DNA序列變化、多種物種的重新測序、微生物群落的測序、檢測基因組的甲基化區域、定量轉錄豐度、表征存在于給定樣品中的基因的不同同工型、識別mRNA轉錄物有效地平移的程度等。實際上,藥物基因組學領域由于患者基因組序列信息的增加的可獲得性而以指數方式擴增。
第一和第二代測序技術以相對低成本提供巨大吞吐量。第三代測序(TGS)技術為基于單分子測序(SMS)的測序方的下一種重要技術。與第一和第二代測序技術相比,TGS工具產生較長讀段,但是測序其受主要呈插入和缺失(插入缺失)形式的較高錯誤率困擾。
測序DNA的過程包含三個基本階段,包括樣品制備、物理測序和任選地比對,和/或重新組裝。樣品制備涉及使測序的基因組片段化和擴增片段。在測序期間,依次識別在每個片段中各個堿基,創建各個讀段。然后利用包含算法的生物信息學軟件以比對重疊的讀段,這允許原始基因組組裝成連續序列。
目前,用于將各個長讀段與參考序列或數據集比對的常用算法基于種子和延伸概念的修改型式。這類方法通常通過尋找在查詢和參考序列之間的精確匹配起始,然后大量尋找理想種子鏈并且使用動態編程借助任選的急下降啟發法將其延伸以避免在差區域上延伸。
在本公開中提供的方法、軟件和系統提供魯棒的定位讀段的測序位置的方法,從而實現比對和組裝可包含畸變(如插入和/或缺失)的序列讀段。
發明內容
本公開提供用于將讀取序列與參考序列比對的方法、系統、可實行軟件產品和存儲裝置。在某些實施例中,公開用于將讀取序列與參考序列片段比對的方法。方法可包含創建用于讀取序列的窗口和用于參考序列片段的,其中窗口具有相同長度;計算在每個窗口內獨特k-聚體出現的數量,基于在每個窗口內獨特k-聚體出現的數量,計算k-聚體計數相似性值;對于跨讀取序列的多個窗口和跨參考序列片段的多個窗口迭代地執行步驟(a)到(c),由此計算多個k-聚體計數相似性值,其中在讀取序列和參考序列片段中的每一個中的每個隨后窗口的開始從在相應序列中的先前窗口的開始偏移距離d;通過求多個k-聚體計數相似性值的平均值,計算相似性評分;和當相似性評分高于閾值時,將讀取序列與參考序列片段比對,其中將在步驟(a)的第一次執行中創建的窗口放置在每個序列的起始處。
在某些實施例中,方法可包含對于讀取序列和參考序列的不同片段重復步驟(a)到(f)。
在某些實施例中,參考序列片段可為從基因組數據庫獲得的參考序列的區域。在某些實施例中,參考序列可為讀取序列。在某些實施例中,參考序列可為從測序與獲得讀取序列的序列相同樣品獲得的讀取序列。
在某些實施例中,窗口中的每一個的長度可為至少50個堿基。在某些實施例中,窗口中的每一個的長度可為在1-10,000個堿基范圍內的任何整數值,其中長度保持恒定。
在某些實施例中,距離d可為至少10個堿基長。在某些實施例中,距離d的長度可在1-500個堿基范圍內,其中d保持恒定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于斯坦福大學托管董事會,未經斯坦福大學托管董事會許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780010771.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:改進的新一代測序
- 下一篇:鑒定男性能育性狀態和胚胎質量的方法





