[發明專利]一種基于蛋白質信息的基因組序列拼接方法有效
| 申請號: | 201810530874.6 | 申請日: | 2018-05-29 |
| 公開(公告)號: | CN108897986B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 王建新;尚娟;李洪東 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B30/20 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 龔燕妮 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蛋白質 信息 基因組 序列 拼接 方法 | ||
本發明公開了一種基于蛋白質信息的基因組序列拼接方法,包括:獲取待拼接的DNA序列與蛋白質序列之間的比對信息;確定每條蛋白質序列上對應的DNA序列之間的相鄰關系;構建相鄰DNA序列之間的連接邊并獲取每個蛋白質序列上對應的每個DNA序列連接邊的支持信息;依次對每個DNA序列連接邊的支持信息進行去噪處理;基于權重打分函數依次對每個DNA序列的前、后節點進行去噪處理;計算存在支持信息的所有DNA序列連接邊的連接間距;基于所有DNA序列連接邊的連接間距以及每個DNA序列的前、后節點依次串接得到基因組序列拼接路徑。通過上述方法提高基因組序列拼接結果的敏感性和精確度。
技術領域
本發明屬于生物信息學領域,具體涉及一種基于蛋白質信息的基因組序列拼接方法。
背景技術
低成本化發展的新測序技術已經極大地改變了全基因組測序的格局,使科學家們能夠啟動眾多的基因組項目來解碼以前未被測序的生物體的基因組。測序技術在短短幾天內就可以對大多數物種完成深度測序,包括哺乳動物在內。但是DNA測序技術不能直接產生染色體級別的完整序列,相反,它們會生成大量的讀數,從基因組的不同部分取樣長度從數十到數千不等的連續堿基。基因組拼接長序列由測序技術生成的數百萬或數十億個長度短的DNA序列測序讀數拼接而成。
大多數物種由于缺乏參考基因組,在分析基因組開始之前,必須對讀數進行序列從頭拼接。不幸的是,基因組拼接仍然是一個非常困難的問題。基因組拼接軟件根據讀數的重疊將其合并為更長稱為蛋白質序列(contigs),確定contigs的方向、順序以及contigs間的距離構建基因組拼接長序列(scaffolds)。但是,目前的測序技術面臨許多阻礙拼接工具重新構建完整染色體的難題,包括讀數錯誤和基因組中大量的重復區。基因組測序技術的局限性以及基因組固有的復雜性導致了當前眾多拼接算法沒有一個是完美的。
還原基因結構是基因組序列拼接的重要目標之一。在一些低質量的拼接甚至是高質量的拼接中,某些基因區域仍然是不完整的。為了得到基因結構更加完善的新序列,使用蛋白質序列協助scaffolding是有效的。
基因是有遺傳效應的DNA片段(病毒的基因可以是RNA),在染色體上線性排列。基因的表達是通過DNA合成蛋白質來實現的,DNA序列的堿基排列決定了mRNA序列中堿基的排列順序,mRNA中堿基排列順序又決定了蛋白質氨基酸的排列順序,蛋白質氨基酸的排列順序最終決定了蛋白質的一級結構和功能的特異性,從而使生物體表現出不同的遺傳特性。因此,基因、DNA以及蛋白質存在對應關系。一個基因可以包含多個外顯子,基因的外顯子可能在兩個不同的contigs上,根據分裂基因信息可以連接contigs,構建更長的scaffolds,參見圖1。
蛋白質序列測定技術的發明先于DNA序列測序技術,當前有很多的蛋白質序列數據庫,含有充足的蛋白質資源信息,為蛋白質序列指導序列拼接奠定了基礎。Uniprot(http://www.uniprot.org/)是蛋白質序列和具有綜合功能注釋目錄的中心資源庫,信息最豐富,資源最廣。Uniprot整合Swiss-Prot、TrEMBL和PIR-PSD三大數據庫,其中Swiss-Prot數據庫中的蛋白質數據經過了人工注釋分析,而TrEMBL數據庫是自動預測的,沒有經過手工注釋,因此Swiss-Prot蛋白質比TrEMBL蛋白質更加可靠。
為了進行基因組功能研究和進化分析,識別基因結構是基因組測序項目的主要目標。雖然雙端短讀數或長讀數可以提高基因序列N50值,但是完善所有的基因結構仍然很困難。因此,需要開發新的基因組序列拼接方法(scaffolding方法)來恢復基因區域。目前已經開發了幾個用蛋白質信息作為指導來增加基因組的連續性的scaffolding方法,例如ESPRIT,SWiPS和PEP_scaffolder。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810530874.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





