[發明專利]一種基因組組裝方法有效
| 申請號: | 201811062858.5 | 申請日: | 2018-09-12 |
| 公開(公告)號: | CN109234267B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 梁承志;杜會龍 | 申請(專利權)人: | 中國科學院遺傳與發育生物學研究所 |
| 主分類號: | C12N15/10 | 分類號: | C12N15/10 |
| 代理公司: | 北京聯創佳為專利事務所(普通合伙) 11362 | 代理人: | 郭防 |
| 地址: | 100101 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因組 組裝 方法 | ||
1.一種基因組組裝方法,其特征在于,包括以下步驟:
S1,將所有的已知DNA序列片段進行相互比較,找出所有的具有相似重疊區域的重疊讀段對;其中,所述的已知DNA序列包括錨定序列片段集合A和隨機測序讀段集合B;所述的錨定序列片段集合A為從隨機測序讀段集合B中選出的讀段集合A3中的一個或幾個集合;所述的將所有的已知DNA序列片段進行相互比較,是將所有的測序讀段進行相互比較;
S2,從錨定序列片段集合A中一個錨定序列片段的自由末端開始,利用該錨定序列片段的重疊讀段對所述錨定序列片段的自由末端進行延伸;延伸時,從隨機測序讀段集合B找出與被延伸末端重疊的所有讀段,形成候選延伸讀段集合C,再從集合C中選擇一條有效延伸讀段,通過重疊區域對被延伸末端進行延伸,即產生了一個待延伸的新末端,重復本步驟直至序列延伸終止,最終形成一條組裝好的連續序列片段;
S3,選擇錨定序列片段集合A中一個尚未使用的錨定序列片段的自由末端,回到步驟S2,重復步驟S2-S3,直到錨定序列片段集合A中錨定序列片段的末端全部完成延伸為止,最終產生一個連續序列片段集合D;
S4,去除連續序列片段集合D中的冗余,最終形成一個組裝好的基因組。
2.根據權利要求1所述的一種基因組組裝方法,其特征在于,步驟S1中所述的從隨機測序讀段中選出讀段集合A3包括單拷貝讀段集合A31、邊界讀段集合A32和部分或全部其余的隨機測序讀段組成的備選讀段集合A33中的一個或幾個集合。
3.根據權利要求2所述的一種基因組組裝方法,其特征在于,單拷貝讀段通過以下方法選取:對于每條讀段,分別計算其兩個末端的平均覆蓋深度,即被重疊讀段覆蓋的平均次數;若每個讀段其兩個末端的平均覆蓋深度在預設閾值Y1的范圍內,則把此讀段分成為長度為L,大小一致,重疊長度為L/2的窗口,計算每個窗口的平均覆蓋深度;若是沒有一個窗口的平均覆蓋深度低于預設閾值Y2,則選此讀段為有效單拷貝讀段;所選的有效單拷貝讀段形成單拷貝讀段集合A31;邊界讀段的選取方法如下:對于每條讀段,分別計算其兩個末端的平均覆蓋深度,即被重疊讀段覆蓋的平均次數;若是有一個末端重疊的讀段的平均覆蓋深度高于預設閾值Y3,而另一個末端重疊的讀段的平均覆蓋深度低于預設閾值Y3但不低于預設閾值Y4,而且在平均覆蓋深度低的一端有多個讀段具有未比對懸空末端,則此讀段被定為邊界讀段;所選的邊界讀段形成邊界讀段集合A32。
4.根據權利要求1所述的一種基因組組裝方法,其特征在于,所述步驟S2中序列延伸的終止條件是:沒有找到有效重疊讀段;或是被延伸末端跟一個終止錨定序列片段的末端有重疊;或是對于從單拷貝序列末端起始的延伸,跟被延伸末端重疊的讀段數目少于預設閾值Y6或超出了預設閾值Y7,或是在跟被延伸末端有重疊的讀段中具有懸空末端的條數超出了預設閾值Y5;或是對于從重復序列末端起始的延伸,延伸序列的長度超過了預設閾值Y8。
5.根據權利要求1所述的一種基因組組裝方法,其特征在于,所述步驟S2中,在選取錨定序列片段集合A中的讀段集合A3中的一個讀段作為起始序列時,若是單拷貝讀段集合A31或邊界讀段集合A32不是空集,則備選讀段集合A33中的讀段不能作為起始序列;在選取一個讀段作為起始序列時,選取可選集合中最長的一個讀段;讀段集合A3中的讀段不作為終止錨定序列片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院遺傳與發育生物學研究所,未經中國科學院遺傳與發育生物學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811062858.5/1.html,轉載請聲明來源鉆瓜專利網。





