[發明專利]一種對基因序列片段進行拼接的系統和方法有效
| 申請號: | 201210291770.7 | 申請日: | 2012-08-16 |
| 公開(公告)號: | CN102867134A | 公開(公告)日: | 2013-01-09 |
| 發明(設計)人: | 盛司潼 | 申請(專利權)人: | 盛司潼 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 序列 片段 進行 拼接 系統 方法 | ||
技術領域
本發明涉及生物信息處理領域,更具體地說,涉及一種對基因序列片段進行拼接的系統和方法。?
背景技術
對基因序列片段進行拼接是將小的序列片段進行比對合并成大的DNA序列或者RNA序列。這些序列片段是由A、G、C、T或者A、G、C、U組成,序列片段的長度表示其含有的A、G、C、T或者A、G、C、U的個數。含有A、G、C、T的序列片段經過拼接得到大的序列片段,大的序列片段再經過拼接或比對得到DNA序列;同樣,含有A、G、C、U的序列片段經過拼接得到大的序列片段,大的序列片段再經過拼接或比對得到RNA序列。序列片段拼接就好比一本書的多個副本通過粉碎機之后得到許多碎片,然后試圖通過許多碎片拼湊出一本書的過程。結果拼湊書的過程中可能會出現很多重復的段落,并且段落中有拼湊錯的地方。序列片段拼接過程中同樣也存在錯誤,這就需要識別錯誤并校正錯誤。?
現有的一種對基因序列片段進行拼接的方法。所述方法包括如下步驟:步驟A、計算機儲存DNA序列片段信息,其來自多個DNA序列片段;步驟B、用一個錨定序列檢索序列片段信息,該錨定序列的長度為n,一個序列片段至少被兩個錨定序列檢索;步驟C、根據所述的錨定序列對序列片段進行分組;步驟D、合并在一組的序列片段,用來獲得更長的序列片段;步驟E、利用來自一個序列片段的至少兩個錨定序列產生至少兩個一致的序列。由于測序過程中或者測序信號識別過程中儀器、操作等會使序列片段存在錯誤,最終使得測序得到的DNA序列片段過短,同時該錯誤會導致通過拼接得到序列片段過短,也即該技術方案雖然能夠實現序列片段的比對和拼接,但無法準確識別并去除錯誤信息,最終使得拼接后的序列不準確且冗余過多,降低了拼接后的序列用于后續分析的價值。?
因此需要一種新的對序列片段進行拼接的系統和方法,能夠提高序列片段拼接的準確度。?
發明內容
本發明的目的在于提供一種對基因序列片段進行拼接的系統和方法,旨在解決現有技術通過拼接所得的序列過短,且無法準確識別并去除錯誤信息而導致拼接后的序列不準確且冗余過多的問題。?
為了實現發明目的,本發明提供了一種對基因序列片段進行拼接的系統包括:數據庫、過濾單元、拼接單元和處理單元。?
其中,所述數據庫用于存儲基因序列片段;所述過濾單元用于對數據庫中的基因序列片段中的短序列片段進行過濾,得長序列片段;所述拼接單元用于對長序列片段進行分段和拼接處理,得序列拼接圖;所述處理單元用于對序列拼接圖及圖中的干擾因素進行去除處理并記錄,得到序列信息;所述處理單元中記錄的信息包括對序列拼接圖進行去除處理后的圖的信息和圖中被去除的信息。?
其中,所述過濾單元用于濾除長度小于L的基因序列片段;所述L>5,L為整數。?
其中,所述拼接單元包括分段模塊、節點模塊、拼接模塊。所述分段模塊用于將長序列片段轉換成長度為K的錨定序列,所述K為正整數;所述節點模塊用于根據錨定序列建立節點;每個錨定序列建立一個節點;所述拼接模塊用于將節點連接成序列拼接圖。?
其中,所述拼接模塊用于連接節點,并對節點進行合并形成合并節點,搜索、連接合并節點形成序列拼接圖。?
其中,所述每個節點包括正向節點和/或反向節點;每個節點的長度在3~20之間。?
其中,所述處理單元包括圖處理模塊、內圖處理模塊和記錄模塊。所述圖處理模塊用于對堿基個數小于M的序列拼接圖進行去除處理;所述內圖處理模塊用于對去除處理后的序列拼接圖中的環路中的一條路和分支進行去除處理;所述記錄模塊用于記錄環路或環路中被去除的一條路和去除的分支中長度大于R的分支的序列信息;所述M≥6,R≥6,且M和R均為整數。?
其中,所述系統還包括顯示單元,用于顯示處理單元得到的序列信息;所述序列信息包括拼接序列片段、每個拼接序列片段對應的長序列片段和每個長序列片段出現的次數。?
其中,所述系統還包括輸入單元,用于接收輸入指令;所述輸入指令包括長序列片段的最小長度、長序列片段的分段長度和序列拼接圖中的最少堿基個數。?
?為了更好地實現本發明的目的,本發明還提供了一種對基因序列片段進行拼接的方法,包括步驟:A、對基因序列片段中的短序列片段進行濾除,得長序列片段;B、對長序列片段進行分段和拼接處理,得序列拼接圖;C、對所述序列拼接圖及圖中的干擾因素進行去除處理并記錄,得到序列信息;所述步驟C中記錄得到的序列信息,包括對圖進行去除處理后的序列拼接圖的信息和序列拼接圖中去除的信息。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛司潼,未經盛司潼許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210291770.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:進氣消聲過濾器
- 下一篇:一種石油鉆機余熱發電裝置
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





