[發明專利]用于堿基序列分析的參考序列處理系統及方法無效
| 申請號: | 201310009073.2 | 申請日: | 2013-01-10 |
| 公開(公告)號: | CN103294932A | 公開(公告)日: | 2013-09-11 |
| 發明(設計)人: | 樸旻胥;金判奎;全皓湘 | 申請(專利權)人: | 三星SDS株式會社 |
| 主分類號: | G06F19/16 | 分類號: | G06F19/16 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 韓明星;王兆賡 |
| 地址: | 韓國*** | 國省代碼: | 韓國;KR |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 堿基 序列 分析 參考 處理 系統 方法 | ||
技術領域
本發明涉及用于分析基因組的堿基序列的技術。
背景技術
由于下一代測序(next-generation?sequencing;NGS)技術的出現和DNA測序(sequencing;堿基序列解讀)成本的減少,使得可以大規模地生產人類基因組堿基序列以用于醫學遺傳學(medical?genetics)和群體遺傳學(population?genetics)的研究。為堿基序列分析而使用的NGS測序儀能夠生產出長度雖然非常短但具有數十億個的短序列(短片段;read)。每個個體的基因組序列通過用于確定所生產的短片段位于參考序列的哪一位置的重測序(Resequencing;索引(Indexing)、映射(Mapping)和比對(Alignment))作業而獲得。
在進行堿基序列分析時,為了短片段的正確的映射,必需需要參考序列。但是,在這種參考序列中的一部分由于測序錯誤、實驗誤差等原因而具有不明確應當表現為A、C、G、T中的哪一種堿基的情形,此時通常將相關位置標記為N。此時,為了處理如上所述的不明確的堿基,現有的堿基序列分析系統將其假設為A、C、G、T中任意選擇的堿基,或者利用概率方法論等處理了不明確的堿基。但是,這樣的方法使不明確的堿基的處理程序增加,從而存在導致堿基序列分析速度非常慢,或者導致堿基序列分析的準確度下降的問題。
發明內容
本發明的實施例的目的在于提供一種在不損害堿基序列分析的準確度的同時能夠高速處理的、參考序列內的不明確的堿基的處理技術。
根據本發明一實施例提供的參考序列處理系統包括:種子片段提取部,從參考序列提取種子片段;判斷部,判斷由種子片段提取部提取的所述種子片段中是否存在不明確的堿基;索引生成部,當所述種子片段中存在不明確的堿基時,將所述種子片段加入到索引中。
另外,用于解決上述問題的根據本發明一實施例提供的參考序列處理方法包括步驟:由參考序列處理系統從參考序列提取種子片段;由所述參考序列處理系統判斷所提取的所述種子片段中是否存在不明確的堿基;當所述種子片段中存在不明確的堿基時,所述參考序列處理系統將所述種子片段加入到索引中。
另外,用于解決上述問題的根據本發明一實施例提供的參考序列處理裝置包括一個以上的處理器、存儲器、一個以上的程序,該裝置構成為所述一個以上程序存儲于所述存儲器且由所述一個以上的處理器執行,所述程序包括用于執行如下步驟的指令:從參考序列提取種子片段;判斷所提取的所述種子片段中是否存在不明確的堿基;當所述種子片段中存在不明確的堿基時,將所述種子片段加入到索引中。
根據本發明的實施例,在進行堿基序列分析時,無需包括用于從參考序列中處理不明確的堿基的算法,因此能夠使堿基序列分析過程簡單,同時能夠大幅縮短分析時間。
并且,根據本發明的實施例,散列表的容量將大幅減少,因此即使使用較小的存儲器也能夠執行堿基序列分析。
附圖說明
圖1為例示出從參考序列提取種子片段的過程的圖。
圖2為用于說明基因組堿基序列(genome?sequencing)分析過程的流程圖。
圖3為用于說明在基因組堿基序列分析中,短片段與參考序列之間的映射過程的圖。
圖4為根據本發明一實施例提供的參考序列處理系統的方塊構成圖。
圖5為用于說明通過參考序列與短片段之間的對比推導不明確的堿基的過程的圖。
圖6為示出根據本發明一實施例提供的參考序列處理方法的流程圖。
符號說明:
400:參考序列處理系統
402:種子片段提取部
404:判斷部
406:索引生成部
具體實施方式
以下,參照附圖說明本發明的具體的實施方式。但是,這只不過是示例,本發明并不局限于此。
在說明本發明時,當判斷為對于與本發明相關的公知技術的具體說明有可能混淆本發明的要旨時,省略對其的詳細說明。而且,后述的術語是考慮到在本發明中的功能而進行定義的,其根據用戶、應用者的意圖或慣例等而可能不同。因此,其定義應當以整個本說明中的內容來定義。
本發明的技術思想由權利要求書來確定,以下的實施例只不過是用于向本發明所屬技術領域的具有通常的知識的技術人員有效率地說明本發明的技術思想的一種手段。
在詳細說明本發明的實施例之前,首先對在本發明中所使用的術語進行說明為如下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星SDS株式會社,未經三星SDS株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310009073.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:無線IC器件
- 下一篇:避免非預期性行為的多媒體互動系統及相關的裝置和方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





