[發(fā)明專利]一種對核酸序列信息進行匹配的系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 201210263634.7 | 申請日: | 2012-07-28 |
| 公開(公告)號: | CN102841988A | 公開(公告)日: | 2012-12-26 |
| 發(fā)明(設(shè)計)人: | 盛司潼 | 申請(專利權(quán))人: | 盛司潼 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 核酸 序列 信息 進行 匹配 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,更具體地說,涉及一種對核酸序列信息進行匹配的系統(tǒng)和方法。?
背景技術(shù)
美國科學(xué)家于1985年提出人類基因組計劃,經(jīng)過美國、英國、法蘭西共和國、德意志聯(lián)邦共和國、日本和中國科學(xué)家的共同努力,于2000年完成了人類基因組“工作框架圖”。并于2001年公布了人類基因組圖譜及初步分析結(jié)果。其研究內(nèi)容還包括創(chuàng)建計算機分析管理系統(tǒng)(也即通過計算機分析系統(tǒng)對測序的結(jié)果進行處理,得到核酸序列信息),檢驗相關(guān)的倫理、法律及社會問題。在人類基因組圖譜公布后,國內(nèi)外開始積極投入到各個生物種族的基因圖譜繪制的工作中。利用核酸序列信息與已有的基因組圖譜(參考序列)進行比較,通過轉(zhuǎn)錄物組學(xué)和蛋白質(zhì)組學(xué)等相關(guān)技術(shù)對基因表達(dá)譜、基因突變等進行匹配分析,可獲得與疾病相關(guān)基因的信息。通過核酸序列信息與基因組圖譜進行匹配、分析,并揭秘患病的根源,已成為生化醫(yī)療領(lǐng)域高度關(guān)注的問題,全球的基因測序技術(shù)也因此發(fā)展的如火如荼,但要準(zhǔn)確快速的從浩瀚的測序結(jié)果數(shù)據(jù)中得到基因信息,卻成了當(dāng)前基因測序技術(shù)發(fā)展的瓶頸。?
對核酸序列信息進行匹配的系統(tǒng)是利用計算機對測序所得的核酸序列片段在已知的參考序列上進行匹配,也即一一比對,根據(jù)匹配的結(jié)果進行后續(xù)的分析。對核酸序列信息進行匹配的方法是基于對核酸序列信息進行匹配的系統(tǒng)對核酸序列信息進行匹配的過程。?
現(xiàn)有技術(shù)中,一種對核酸序列信息進行匹配的方法,所述方法包括步驟:A、根據(jù)允許錯配的個數(shù)n,將每條核酸序列片段分成至少n+1條參與匹配的短片段,得短片段的數(shù)據(jù)庫;B、根據(jù)參與匹配的短片段的長度建立并存儲參考序列索引,得數(shù)據(jù)庫;C、把每條核酸序列片段分段建立的短片段分別單獨在數(shù)據(jù)庫中進行匹配,得匹配結(jié)果。因為參考序列索引是等長的,根據(jù)概率的原理,存在完全相同的多個參考序列索引。該技術(shù)方案中,每條參與匹配的短片段依次與參考序列索引進行匹配,短片段需要與所有的參考序列索引分別進行匹配(短片段需要分別與多個相同的參考序列索引進行匹配),這將大大降低信息處理的速度。并且參考序列和核酸序列均需要進行分段處理,這將進一步增加了信息處理的工作量,從而進一步降低了信息處理的速度。另外,參考序列建立的參考序列索引和核酸序列分段建立的短片段,將產(chǎn)生大量的信息,這將增加信息處理裝置的存儲空間。?
因此需要一種新的對核酸序列信息進行匹配的系統(tǒng)和方法,能夠?qū)崿F(xiàn)核酸序列與參考序列快速匹配。?
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種對核酸序列信息進行匹配的系統(tǒng)和方法,旨在解決現(xiàn)有技術(shù)核酸序列信息與參考序列進行匹配時,速度慢的問題。?
為了實現(xiàn)發(fā)明目的,一種對核酸序列信息進行匹配的系統(tǒng)包括數(shù)據(jù)庫、參考序列變化單元、標(biāo)記單元和匹配單元。所述數(shù)據(jù)庫,用于存儲參考序列;所述參考序列變換單元,用于對數(shù)據(jù)庫中的參考序列進行BWT變換,得匹配參考序列;所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列進行間隔標(biāo)記;所述匹配單元,用于將核酸序列片段依次與數(shù)據(jù)庫中的匹配參考序列進行一致性匹配,得匹配核酸序列。?
一致性匹配包括允許錯配和不允許錯配的情況。在允許N個錯配的情況下,核酸序列片段至多有N個堿基與數(shù)據(jù)庫中的匹配參考序列不一致稱為一致性匹配;在不允許錯配的情況下,核酸序列片段與數(shù)據(jù)庫中的匹配參考序列完全一致稱為一致性匹配。N為正整數(shù)。?
其中,所述參考序列變換單元包括參考序列矩陣模塊和BWT矩陣模塊。所述參考序列矩陣模塊,用于對在數(shù)據(jù)庫中的參考序列末端或前端加上標(biāo)識符,并將該參考序列循環(huán)移動,得參考序列矩陣;所述BWT矩陣模塊,用于將參考序列矩陣按照字典順序排序,得BWT參考序列矩陣。所述參考序列變換單元還可包括匹配參考序列模塊,所述匹配參考序列模塊,用于獲取BWT參考序列矩陣第一列與最后一列,得匹配參考序列,并儲存在數(shù)據(jù)庫中。?
其中,所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列按照等差數(shù)列進行間隔標(biāo)記。?
進一步的,所述標(biāo)記單元,還用于在每個等差數(shù)列間隔中再利用等差數(shù)列對數(shù)據(jù)庫中的匹配參考序列進行進一步標(biāo)記。?
上述任一技術(shù)方案中,所述匹配單元,用于將核酸序列片段反向互補形成反向互補核酸序列片段,并將反向互補核酸序列片段與數(shù)據(jù)庫中的匹配參考序列進行一致性匹配,得匹配核酸序列。?
其中,所述匹配單元,利用回溯法依次在反向互補核酸序列片段不能匹配的位置之前的位置上進行堿基替換,并從替換位置開始繼續(xù)在數(shù)據(jù)庫中進行匹配。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于盛司潼,未經(jīng)盛司潼許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210263634.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建?;蚍抡妫纾焊怕誓P突騽討B(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)?,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





