[發明專利]一種序列自動拼接方法及裝置有效
| 申請號: | 201710104162.3 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106951734B | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 段廣有;金亮;徐鳳丹;廖國娟;葛毅 | 申請(專利權)人: | 蘇州金唯智生物科技有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 胡擁軍;趙賽 |
| 地址: | 215123 江蘇省蘇州市蘇州工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 序列 自動 拼接 方法 裝置 | ||
本發明公開了一種序列自動拼接方法及裝置,該方法包括以下步驟:S1:獲取測序樣本并對其進行預處理,所述測序樣本包括多個測序數據序列;S2:計算每個測序數據序列的長度,選擇長度最長的測序數據序列并記為起始序列;S3:從其余測序數據序列中選擇一個并記為待拼接序列;S4:將所述起始序列與所述待拼接序列進行比對;S5:當該起始序列與所述待拼接序列存在長度大于預設值M的公共子串時,則將該起始序列與該待拼接序列進行拼接并得到一拼接序列,并將該拼接序列記為新的起始序列;S6:判斷是否還有測序數據序列未拼接,若是,則依次執行S3、S4和S5;若否,則執行S7;S7:生成測序結果文件。本發明大大提高了拼接結果的準確性。
技術領域
本發明涉及生物的DNA序列,尤其涉及序列拼接的方法及裝置。
背景技術
一般來說,序列拼接過程通常可分為如下幾個階段:1、重疊階段,在該階段每一個片段和其他的片段進行比對可以找出重疊部分;2、布局階段,將所有的片段組合成一個近似的多重比對;3、一致階段,確定最終的完整序列。當序列片段的數量較大時,計算所有序列組合的重疊部分將會帶來計算上的瓶頸,所以就需要更加高效的計算方法。另外,由于重復序列的誤配很大可能會對拼接結果造成干擾;另外,測序數據本身的錯誤信號、以及拼接起始片的選擇都會對拼接結果造成誤差。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種序列自動拼接方法,其能夠解決現有技術中由于各種因素導致的拼接誤差。
本發明的目的之一采用以下技術方案實現:
本發明提供了一種序列自動拼接方法,包括以下步驟:
S1:獲取測序樣本并對其進行預處理,所述測序樣本包括多個測序數據序列;
S2:計算每個測序數據序列的長度,選擇長度最長的測序數據序列并記為起始序列;
S3:從其余測序數據序列中選擇一個并記為待拼接序列;
S4:將起始序列與待拼接序列進行比對;
S5:當該起始序列與該待拼接序列存在長度大于預設值M的公共子串時,則將該起始序列與該待拼接序列進行拼接并得到一拼接序列,并將該拼接序列記為新的起始序列;
S6:判斷是否還有測序數據序列未拼接,若是,則依次執行S3、S4以及S5;若否,則執行S7;
S7:生成測序結果文件。
優選地,所述預設值M=20。
優選地,所述S4具體為將起始序列與待拼接序列的正向序列、反向序列、互補序列以及反向互補序列依次進行比對。
優選地,所述預處理具體包括根據系統預設的信號強度閾值將每個測序數據序列的低置信度區域去除,以及對酒精峰的識別判定。
為了克服現有技術的不足,本發明的目的之二在于提供一種序列自動拼接裝置,其能夠解決現有技術中由于各種因素導致的拼接誤差。
本發明的目的之二采用以下技術方案實現:
本發明還提供了一種序列自動拼接裝置,包括:
預處理模塊,用于獲取測序樣本并對其進行預處理,所述測序樣本包括多個測序數據序列;
起始序列選擇模塊,用于計算每個測序數據序列的長度,選擇長度最長的測序數據序列并記為起始序列;
待拼接序列選擇模塊,用于從其余測序數據序列中選擇一個并記為待拼接序列;
比對模塊,用于將起始序列與待拼接序列進行比對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州金唯智生物科技有限公司,未經蘇州金唯智生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710104162.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖書分揀裝置
- 下一篇:一種煙用香珠自動篩選裝置





