[發明專利]一種基于蛋白質信息的基因組序列拼接方法有效
| 申請號: | 201810530874.6 | 申請日: | 2018-05-29 |
| 公開(公告)號: | CN108897986B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 王建新;尚娟;李洪東 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B30/20 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 龔燕妮 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蛋白質 信息 基因組 序列 拼接 方法 | ||
1.一種基于蛋白質信息的基因組序列拼接方法,其特征在于:包括如下步驟:
S1:獲取待拼接的DNA序列與蛋白質序列之間的比對信息;
其中,一個DNA序列與一個蛋白質序列相匹配時獲取到一條比對信息,獲取的每一條比對信息對應的蛋白質序列至少匹配了兩個DNA序列,所述比對信息至少包括:匹配值、蛋白質序列上匹配區域的起始位置坐標和終止位置坐標、比對方向;
所述蛋白質序列與所述DNA序列屬于同一物種或同源物種;
S2:獲取存在所述比對信息的蛋白質序列,并根據每條蛋白質序列的每條比對信息中蛋白質序列上匹配區域的起始位置和終止位置分別確定每條蛋白質序列上對應的DNA序列之間的相鄰關系;
S3:基于DNA序列之間的相鄰關系構建相鄰DNA序列之間的連接邊,并獲取每個蛋白質序列上對應的每個DNA序列連接邊的支持信息;
一個DNA序列連接邊與N個蛋白質序列存在匹配關系時,所述DNA序列連接邊對應存在N條支持信息,N為正整數;
所述支持信息用于表示一個蛋白質序列上對應DNA序列連接邊中兩個DNA序列的連接類型,所述連接類型包括L1L2連接類型和gap連接類型;
S4:基于比對信息依次對每個DNA序列連接邊的支持信息進行去噪處理;
其中,去噪處理后每個DNA序列連接邊僅存在一條支持信息,過程如下:
S41:依據比對信息中的比對方向獲取同一DNA序列連接邊上支持正向連接的蛋白質序列的個數以及支持反向連接的蛋白質序列的個數;S42:判斷支持正向連接的蛋白質序列的個數與支持反向連接的蛋白質序列的個數是否相等;若相等,刪除所述DNA序列連接邊的所有支持信息;若不相等,將DNA序列連接邊的支持信息中支持個數最多的方向上的所有蛋白質序列對應的支持信息進行保留,并刪除對應剩余支持信息以及記錄支持個數最多的方向上的蛋白質序列個數;S43:判斷所述DNA序列連接邊的支持信息是否超過1條;S44:若未超過1條,去噪處理完成;若超過,依次判斷DNA序列連接邊的支持信息中是否含有gap連接類型的支持信息;若含有,保留含gap連接類型的支持信息并刪除對應剩余支持信息,再從保留的支持信息中保留一條匹配度最大所對應的支持信息并刪除對應剩余支持信息;若不含有,從DNA序列連接邊的所有支持信息中保留匹配度最大所對應的支持信息并刪除對應剩余支持信息;
S5:基于權重打分函數依次對每個DNA序列的前、后節點進行去噪處理;
其中,去噪處理后每個DNA序列的前、后節點的個數均不超過1,且前節點和后節點的權重分數分別大于對應DNA序列的剩余每個前節點、剩余每個后節點中權重分數,且依據去噪后每個DNA序列的前、后節點保留對應的DNA序列連接邊的支持信息,并刪除剩余支持信息;
其中,一個DNA序列連接邊中位于前端的DNA序列為前節點,后端的DNA序列為后節點;
S6:計算存在支持信息的所有DNA序列連接邊的連接間距;
S7:基于S6中所有DNA序列連接邊的連接間距以及每個DNA序列的前、后節點依次串接得到基因組序列拼接路徑;
其中,相鄰DNA序列的距離與DNA序列連接邊對應的連接間距一一對應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810530874.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





