[發明專利]用于確定短串聯重復區域中的變化的基于序列圖的工具在審
| 申請號: | 202080005551.0 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN112955958A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 伊戈爾·多爾曾科;邁克爾·A·埃伯利 | 申請(專利權)人: | 伊魯米那股份有限公司 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B20/20 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王瑋瑋;鄭霞 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 確定 串聯 重復 區域 中的 變化 基于 序列 工具 | ||
1.一種使用包括一個或多個處理器和系統存儲器的計算機實現的方法,所述方法用于對一個或多個重復序列進行基因分型,每個重復序列包括一個或多個重復子序列,所述方法包括:
(a)使用所述一個或多個處理器收集來自數據庫的試驗樣品的序列讀段;
(b)由所述一個或多個處理器將所述序列讀段與各自由序列圖表示的所述一個或多個重復序列比對,其中所述序列圖具有有向圖的數據結構,所述有向圖具有表示核酸序列的頂點和連接所述頂點的有向邊緣,并且其中所述序列圖包括一個或多個自環,每個自環表示重復子序列,每個重復子序列包括一個或多個核苷酸的重復單元的重復;以及
(c)由所述一個或多個處理器使用與所述一個或多個重復序列比對的所述序列讀段確定所述一個或多個重復序列的一個或多個基因型。
2.根據權利要求1所述的方法,其中所述一個或多個重復序列中的重復序列包括特定重復單元,所述特定重復單元包括至少一個不完全指定的核苷酸。
3.根據權利要求2所述的方法,其中所述特定重復單元包括簡并密碼子。
4.根據前述權利要求中任一項所述的方法,其中所述一個或多個自環包括表示兩個或更多個重復子序列的兩個或更多個自環。
5.根據前述權利要求中任一項所述的方法,其中所述序列圖還包括兩個或更多個等位基因的兩條或更多條另選路徑。
6.根據權利要求5所述的方法,其中所述兩個或更多個等位基因包括插入缺失或置換。
7.根據權利要求5所述的方法,其中所述置換包括單核苷酸變異(SNV)或單核苷酸多態性(SNP)。
8.根據權利要求5所述的方法,還包括使用與所述兩條或更多條另選路徑比對的序列讀段對所述兩個或更多個等位基因進行基因分型。
9.根據權利要求8所述的方法,其中對所述兩個或更多個等位基因進行基因分型包括將所述兩條或更多條另選路徑的覆蓋度提供給概率模型,以確定所述兩個或更多個等位基因的概率。
10.根據權利要求9所述的方法,其中所述概率模型模擬等位基因的概率作為所述等位基因的覆蓋度的函數,所述函數選自泊松分布、負二項分布、二項分布或β-二項分布。
11.根據權利要求10所述的方法,其中所述泊松分布的速率參數由在基因座處觀察到的讀段長度和平均深度來估計。
12.根據前述權利要求中任一項所述的方法,還包括在(b)之前將所述序列讀段與參考基因組比對以確定所述序列讀段的基因組坐標,以及選擇序列讀段的子集作為待與所述一個或多個重復序列比對的所述序列讀段,每個重復序列由序列圖表示。
13.根據權利要求12所述的方法,其中所述序列讀段的子集包括與由序列圖表示的區域比對或所述區域附近的讀段。
14.根據權利要求12所述的方法,其中所述序列讀段的子集包括未比對的讀段,所述未比對的讀段的匹配映射到由序列圖表示的區域或所述區域的附近。
15.根據權利要求12所述的方法,其中所述序列讀段的子集包括與一個或多個脫靶區域比對的讀段,所述脫靶區域是用于錯比對讀段的已知熱點。
16.根據前述權利要求中任一項所述的方法,其中將序列讀段與所述序列圖比對包括:
找到所述序列讀段與所述序列圖的路徑之間的kmer匹配;以及
將所述kmer匹配延伸至所述序列圖的節點和邊緣的完全比對,所述序列圖包括一個或多個自環。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊魯米那股份有限公司,未經伊魯米那股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080005551.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:減振結構、檢測系統和測序系統
- 下一篇:位置信息確定方法、設備及存儲介質





