[發明專利]堿基序列重組系統及方法在審
申請號: | 201310369701.8 | 申請日: | 2013-08-22 |
公開(公告)號: | CN103793623A | 公開(公告)日: | 2014-05-14 |
發明(設計)人: | 樸旻 | 申請(專利權)人: | 三星SDS株式會社 |
主分類號: | G06F19/18 | 分類號: | G06F19/18 |
代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 金光軍;郭鴻禧 |
地址: | 韓國*** | 國省代碼: | 韓國;KR |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 堿基 序列 重組 系統 方法 | ||
技術領域
本發明的實施例涉及一種用于分析基因組的堿基序列的技術。
背景技術
用于生產高容量短序列的第二代測序方式(NGS:Next?Generation?Sequencing)因其低廉的成本和迅速生成數據的能力而正在迅速地替代傳統的桑格(Sanger)測序方式。并且,開發出了多種聚焦于準確度的NGS序列重組程序。然而,近來隨著第二代測序技術的發展,制作片段序列的費用降低為過去的一半以下,隨之可用數據的量增加,因此需要開發一種能夠在短時間內準確地處理高容量短序列的技術。
序列重組的第一個步驟為通過堿基序列比對(alignment)算法而將短片段映射(mapping)于參考序列的正確位置上。其中的問題在于即使是同種個體,也可能因多種遺傳性變異而導致基因組序列上的差異。而且,測序過程中的誤差也可能導致堿基序列上的差異。因此,堿基序列比對算法必須有效考慮這種差異和變異而提高映射準確度。
總而言之,為了對基因組信息進行分析,需要盡量多而準確的所有基因組信息數據。而且,為了達到這一目的,首先是要開發出具有很高的準確度和較大處理量的堿基序列比對算法。然而,現有技術中的方法在滿足這些需求條件方面存在局限性。
發明內容
本發明實施例的目的在于提供一種可在確保映射準確度的同時通過改善映射時的復雜度而提高處理速度的堿基序列重組方案。
為了解決如上所述的技術問題,根據本發明一個實施例的堿基序列重組系統包括:映射位置計算單元,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;全局比對單元,從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域,并判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對(Global?Alignment)。
另外,為了解決如上所述的技術問題,根據本發明一個實施例的堿基序列重組方法包括如下步驟:在映射位置計算單元中,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;在全局比對單元中,從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域;在所述全局比對單元中,判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對(Global?Alignment)。
另外,根據本發明一個實施例的裝置包括:一個以上的處理器;存儲器;以及一個以上的程序,而且,構成為所述一個以上的程序被存儲于所述存儲器中,并通過所述一個以上的處理器執行,其中,所述程序中包括用于執行如下步驟的命令:從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域;判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對。
根據本發明的實施例,由于在堿基序列比對時存儲已執行全局比對的位置之后在對應位置的周圍不去執行全局比對,因此可以減少在堿基序列比對過程中造成大量耗時的全局比對執行次數,并可以由此大幅減少堿基序列比對時間。
而且,通過將如上所述的不去重復執行全局比對的重復區域的大小設定為與短片段的長度成比例,從而不僅可以減少堿基序列比對時間,而且可以保持堿基序列比對的準確度。
附圖說明
圖1為用于說明根據本發明一個實施例的堿基序列重組方法的圖。
圖2為用于舉例說明根據本發明一個實施例的堿基序列比對方法的誤差個數計算過程的圖。
圖3為用于說明根據本發明一個實施例的全局比對過程的順序圖。
圖4a至圖4e為用于舉例說明根據本發明一個實施例的全局比對過程的圖。
圖5為示出根據本發明一個實施例的堿基序列重組系統的模塊圖。
符號說明:
500:堿基序列重組系統??502:種子序列生成單元
504:映射位置計算單元??506:全局比對單元
具體實施方式
以下,參照附圖說明本發明的具體實施方式。然而這僅僅是示例,本發明并不局限于此。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星SDS株式會社,未經三星SDS株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310369701.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用