[發明專利]利用長轉錄組測序結果裝配基因組的方法及裝置有效
| 申請號: | 201210256904.1 | 申請日: | 2012-07-23 |
| 公開(公告)號: | CN102789553A | 公開(公告)日: | 2012-11-21 |
| 發明(設計)人: | 李炯棠;薛尉;汪金兔;祝雅萍;孫效文 | 申請(專利權)人: | 中國水產科學研究院 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭紅麗 |
| 地址: | 100141 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 轉錄 組測序 結果 裝配 基因組 方法 裝置 | ||
技術領域
本發明涉及一種利用長轉錄組測序結果裝配基因組的方法及裝置。
背景技術
目前,在基因組和轉錄組研究中,至少采用4種測序技術,其中包括傳統的第一代Sanger測序技術以及作為第二代高通量測序技術的羅氏454測序技術、Illumina測序技術和AB公司的SOLiD技術。Sanger測序技術和Roche454測序技術產生的測序讀長平均在300bp以上,而Illumina測序技術和SOLiD技術產生的測序讀長低于150bp。
在基因組序列組裝過程中,需要構建不同長度的基因組測序文庫,來連接兩個基因組片段。使用基因組片段比較短的測序文庫,能夠更準確地連接兩個基因組片段,使用基因組片段比較長的測序文庫,能夠使組裝后的基因組長度更長。因此,目前,在基因組組裝過程中,通常先利用短測序文庫組裝基因組,再使用長測序文庫組裝基因組,使得組裝后的基因組片段長度越來越大。目前第二代測序技術能夠準確地構建短于20kb的基因組測序文庫,但難以構建長于20kb的測序文庫,所以,必須利用酵母人工染色體和細菌人工染色體,產生更長的測序文庫,例如30kb和150kb的測序文庫。但利用酵母人工染色體和細菌人工染色體的技術存在產生的數據量少、成本高、周期長的缺陷。為了加快基因組組裝進度,人們嘗試采用新方法替代上述構建長片段測序文庫的方法。但是迄今尚未開發出低廉的長片段測序文庫的構建方法。
成熟的轉錄本是通過以連續性基因組為模板進行轉錄,然后剪切去除內含子,拼接剩余的外顯子而形成。如果基因組片段未組裝起來,即基因組不完整,則可能將一條成熟的轉錄本分成2個或者更多個轉錄本片段。利用這些轉錄本片段,能夠重新將對應的基因組片段串聯起來,形成更長的基因組序列。而兩個轉錄本片段之間的距離是被剪切去除的內含子。據報道內含子的平均長度為90kb,最長可達到200kb,因此利用轉錄組組裝基因組的方法與利用長測序文庫組裝基因組相似。
第二代測序技術已經廣泛應用于轉錄組測序,例如,當利用Illumina公司的Solexa?GAIIx儀器獲得1G的測序結果時,能產生千萬級的轉錄組讀段,并且僅需1周左右的時間,從而降低成本。因此與基于長測序文庫的測序相比,使用轉錄組數據的優勢在于容量高、成本低和周期短。
基于這種思想,研究人員嘗試利用轉錄組來拼接基因組。目前ERANGE軟件中的RNA-PATH模塊可利用Illumina的轉錄組雙端測序結果來組裝基因組,具體組裝過程為,首先直接將轉錄組的雙端讀段比對到基因組片段中,然后去除僅比對到同一基因組片段中的讀段,利用比對到不同基因組片段的雙端讀段,將兩個基因組片段連接在一起。
但是,上述軟件存在以下問題:
(1)目前RNA-PATH模塊僅能支持illumina測序技術產生的雙端數據,而無法利用其他測序技術產生的單向測序數據,特別是無法利用現有公開的大量單向的Sanger數據和Roche454測序數據,導致使用范圍受到限制。
(2)RNA-PATH模塊根據讀段長度分別使用Eland、Bowtie和BLAT三種比對程序將轉錄組讀段比對到預先裝配的基因組上。但是,上述三種比對程序可比對的轉錄組數據有限,導致實際有效的轉錄組數據少于其他比對程序。
因此,本領域期待一種能夠利用長的轉錄組測序讀段組裝基因組序列的方法。
發明內容
本發明提供一種能夠利用長的轉錄組測序讀段組裝基因組序列的方法。
為了對本發明作出清楚的說明,首先針對本說明書中使用的技術術語如下進行定義。
查詢序列(query?sequence),也稱為輸入序列,在本說明書中是指轉錄組測序讀段。
匹配序列(target?sequence),是與上述查詢序列相似的序列,在本說明書中是指與轉錄組測序讀段相似的基因組片段。
比對區域(alignment?region),在本說明書中是指查詢序列與匹配序列相似或者一致的區域。由于基因組裝配尚不完整,所以,一條查詢序列可能被分割成多個比對區域,這些比對區域分別位于多個基因組片段上。
查詢區段(query?block),在本說明書中是指比對區域在轉錄組測序讀段上的序列。
匹配區段(target?block),在本說明書中是指比對區域在基因組片段上的序列。
查詢序列的長度(qSize),是指查詢序列的所有堿基數。在本說明書中,具體為轉錄組測序讀段的所有堿基的總和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國水產科學研究院,未經中國水產科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210256904.1/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





