[發(fā)明專利]基因序列數(shù)據(jù)的處理方法和裝置有效
| 申請?zhí)枺?/td> | 201210147222.7 | 申請日: | 2012-05-11 |
| 公開(公告)號: | CN102841987A | 公開(公告)日: | 2012-12-26 |
| 發(fā)明(設(shè)計)人: | 王垚燊;阮航;李萌 | 申請(專利權(quán))人: | 北京諾禾致源生物信息科技有限公司 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責任公司 11240 | 代理人: | 吳貴明;余剛 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基因 序列 數(shù)據(jù) 處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種基因序列數(shù)據(jù)的處理方法和裝置。
背景技術(shù)
基于短片段序列數(shù)據(jù)進行測序的方法日漸成熟,通過構(gòu)建德布魯因圖(de?Bruijn)的思想進行基因組序列的組裝軟件,成功組裝了大量的全基因序列。但是,現(xiàn)有組裝軟件在進行基因序列組裝時,并不考慮用來組裝的基因序列是雜合基因還是純合基因,以生物界居多的二倍體基因為例進行舉例說明,現(xiàn)有技術(shù)中在對二倍體基因進行序列組裝時,均是將二倍體基因當作純合二倍體進行組裝,對于其中的等位基因位點采取隨機選取其中一個的方式進行忽略,即,舍去等位基因中的一種情況,把二倍體基因當成純合二倍體來處理,現(xiàn)有技術(shù)中的此種進行基因序列數(shù)據(jù)的處理組裝的方式,不僅會造成了雜合二倍體基因的單核苷酸多態(tài)性(Single?Nucleotide?Polymorphism,簡稱SNP)的位點信息損失,影響生物信息的精確性,而且對于雜合度較高、SNP信息復(fù)雜的基因,組裝所得到的基因序列偏離生物自身基因序列的程度更大。
針對相關(guān)技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基因序列數(shù)據(jù)的處理方法和裝置,以解決現(xiàn)有技術(shù)中基因序列數(shù)據(jù)的處理方法容易造成的生物信息缺失的問題。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種基因序列數(shù)據(jù)的處理方法,包括:接收初始基因序列的測序數(shù)據(jù);構(gòu)建測序數(shù)據(jù)的德布魯因圖;保存德布魯因圖中的第一邊序列和組成第一邊序列的各個短序列,其中,第一邊序列為德布魯因圖中的任一邊序列;獲取組成第一邊序列的各個短序列的深度信息;根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息;按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖;以及切割化簡后的德布魯因圖,得到測序數(shù)據(jù)的疊連群基因序列。
進一步地,按照德布魯因圖中的各個邊序列的深度信息和測序數(shù)據(jù)中的各個短序列化簡德布魯因圖包括:獲取德布魯因圖中第一組合邊序列,其中,第一組合邊序列包括第一序列、第二序列和第三序列,第二序列連接在第一序列和第三序列之間,第一序列和第三序列均包括兩條分支邊序列,第二序列包括一條共有邊序列;判斷第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件;在判定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件時,對比測序數(shù)據(jù)中的各個短序列,確定第一組合邊序列的基因類型;以及按照基因類型拆解第一組合邊序列,得到化簡后的德布魯因圖。
進一步地,對比測序數(shù)據(jù)中的各個短序列,確定第一組合邊序列的基因類型包括:對比測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列,其中,第一分支邊序列為第一序列中的分支邊序列,第二分支邊序列為第三序列中的分支邊序列;復(fù)制共有邊序列,得到第一共有邊序列和第二共有邊序列;依次連接第一分支邊序列、第一共有邊序列和第二分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第一基因類型;以及依次連接第三分支邊序列、第二共有邊序列和第四分支邊序列,將連接后的組合邊序列的類型確定為第一組合邊序列的第二基因類型,其中,第三分支邊序列為第一序列中的分支邊序列且第三分支邊序列與第一分支邊序列不同,第四分支邊序列為第三序列中的分支邊序列且第四分支邊序列與第二分支邊序列不同。
進一步地,對比測序數(shù)據(jù)中的各個短序列以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列包括:判斷第一短序列的長度是否大于共有邊序列的長度,其中,第一短序列為各個短序列中的任一短序列;在判定第一短序列的長度大于共有邊序列的長度時,對比第一短序列全部堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列;以及在判定第一短序列的長度小于或等于共有邊序列的長度時,對比第一短序列的雙末端堿基組成以確定出同屬于一條短序列的第一分支邊序列和第二分支邊序列。
進一步地,判斷第一組合邊序列中的各個邊序列的深度信息是否滿足預(yù)設(shè)條件包括:判斷共有邊序列的深度信息值是否為分支邊序列的深度信息值的第一數(shù)值倍,其中,在判定共有邊序列的深度信息值為分支邊序列的深度信息值的第一數(shù)值倍時,確定第一組合邊序列中的各個邊序列的深度信息滿足預(yù)設(shè)條件。
進一步地,根據(jù)組成第一邊序列的各個短序列的深度信息計算第一邊序列的深度信息包括:計算組成第一邊序列的各個短序列的深度信息值的平均值;以及確定計算出的平均值為第一邊序列的深度信息值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京諾禾致源生物信息科技有限公司,未經(jīng)北京諾禾致源生物信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210147222.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:駕駛輔助裝置
- 下一篇:一種管材切割機用升降平臺
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





