[發(fā)明專利]生物基因組簡單重復(fù)序列的發(fā)掘方法及設(shè)備有效
| 申請?zhí)枺?/td> | 201110414015.9 | 申請日: | 2011-12-13 |
| 公開(公告)號: | CN102495977A | 公開(公告)日: | 2012-06-13 |
| 發(fā)明(設(shè)計)人: | 任民;王志德;劉艷華;張興偉;牟建民 | 申請(專利權(quán))人: | 中國農(nóng)業(yè)科學(xué)院煙草研究所 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 北京市盛峰律師事務(wù)所 11337 | 代理人: | 趙建剛 |
| 地址: | 266101 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生物 基因組 簡單 重復(fù) 序列 發(fā)掘 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及SSR挖掘技術(shù)領(lǐng)域,特別涉及一種生物基因組簡單重復(fù)序列的發(fā)掘方法及設(shè)備。
背景技術(shù)
SSR(Simple?Sequence?Repeats,簡單重復(fù)序列)是指DNA分子中1~5個核苷酸的串聯(lián)重復(fù)。SSR以其在動植物基因組隨機(jī)分布、高信息量和多態(tài)性、共顯性和孟德爾遺傳等優(yōu)點,在遺傳圖譜的構(gòu)建、遺傳多樣性分析、親緣關(guān)系鑒定、DNA指紋圖譜構(gòu)建和功能基因標(biāo)記等方面具有公認(rèn)的優(yōu)越性和應(yīng)用前景。
目前,已有的SSR發(fā)掘算法多基于字符串發(fā)掘,然后再利用統(tǒng)計分析的方法去除冗余,基本包括以下三步:首先在SSR定義的范圍內(nèi)枚舉所有可能的堿基組合,其次每種堿基組合依次進(jìn)行字符串發(fā)掘,最后去掉冗余的發(fā)掘結(jié)果。所謂冗余主要是指以下3種情況,1、重復(fù)統(tǒng)計,例如一段SSR序列AGAGAGAGAG在發(fā)掘AG、AGAG......AGAGAGAGAG時會被重復(fù)統(tǒng)計5次;2、移碼重復(fù),例如(CT)5=CTCTCTCTCT=TCTCTCTCTC=(TC)5;3、約數(shù)重復(fù),例如(ATAT)n=(AT)2n。另外,對于形如AAA...AA或者TTT...TT的序列,由于該種序列雖然符合SSR的定義,但是在實際工作中并不被采納,所以還需要將該種序列去除。
已報道的一些SSR發(fā)掘軟件均依據(jù)上述算法而開發(fā),例如SSR?MINING1.0[1]就是首先根據(jù)ATCG四種堿基,利用排列組合的原理生成一個初步的單元庫,然后去除冗余部分;SSR?Hunter[2]是首先通過嵌套循環(huán)的方法獲得以A、T、C、G為元件,長度分別為2、3、4、5、6個堿基的所有的排列組合。然后用前面生成的每一種重復(fù)單元的類型搜索基因組序列,把所有符合條件的序列保存在數(shù)組中,最后再對這個序列進(jìn)行去冗余分析。
可見,在現(xiàn)有SSR發(fā)掘方法中,在SSR發(fā)掘的過程中會產(chǎn)生大量的冗余結(jié)果,因此為了得到正確的分析結(jié)果,必須對發(fā)掘結(jié)果去冗余。雖然不同的軟件采用的去冗余策略各不相同,但是發(fā)掘過程均較為復(fù)雜和繁瑣,需要大量的統(tǒng)計分析和邏輯運(yùn)算,至今未見有一種無冗余的分析算法。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種生物基因組簡單重復(fù)序列的發(fā)掘方法及設(shè)備,在對SSR發(fā)掘過程中,不會產(chǎn)生冗余結(jié)果,從而降低了SSR發(fā)掘過程的配置復(fù)雜度,提高了SSR發(fā)掘的效率,降低了SSR發(fā)掘軟件的開發(fā)難度。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明提供一種生物基因組簡單重復(fù)序列的發(fā)掘方法,包括以下步驟:
根據(jù)需要發(fā)掘的生物基因組簡單重復(fù)序列SSR的特征構(gòu)建正則表達(dá)式;
通過所述正則表達(dá)式分析待分析序列,判斷所述待分析序列中是否存在符合所述正則表達(dá)式要求的目標(biāo)SSR,如果判斷結(jié)果為是,則輸出所述目標(biāo)SSR;如果判斷結(jié)果為否,則顯示所述待分析序列中不存在所述目標(biāo)SSR的信息。
優(yōu)選的,所述需要發(fā)掘的生物基因組簡單重復(fù)序列SSR的特征包括:
所述需要發(fā)掘的生物基因組簡單重復(fù)序列SSR中的基序的最小長度信息、所述基序的最大長度信息和所述基序的最少再重復(fù)次數(shù)信息,其中,所述基序指所述SSR中的重復(fù)單元。
優(yōu)選的,所述正則表達(dá)式的形式為:(.{i,j}?)(/1){k,},其中,i、j、k分別表示所述目標(biāo)SSR中的基序的最小長度值、所述基序的最大長度值、所述基序的最少再重復(fù)次數(shù)。
優(yōu)選的,在所述判斷結(jié)果為是,之后還包括:
進(jìn)一步判斷所述目標(biāo)SSR是否由單一堿基組成,如果判斷結(jié)果為是,則刪除所述目標(biāo)SSR,如果判斷結(jié)果為否,則輸出所述目標(biāo)SSR。
本發(fā)明還提供一種生物基因組簡單重復(fù)序列的發(fā)掘設(shè)備,包括:
構(gòu)建模塊:用于根據(jù)需要發(fā)掘的生物基因組簡單重復(fù)序列SSR的特征構(gòu)建正則表達(dá)式;
第一判斷模塊:用于通過所述構(gòu)建模塊構(gòu)建的所述正則表達(dá)式分析待分析序列,判斷所述待分析序列中是否存在符合所述構(gòu)建模塊構(gòu)建的所述正則表達(dá)式要求的目標(biāo)SSR;
輸出模塊:用于當(dāng)所述第一判斷模塊的判斷結(jié)果為是時,輸出所述目標(biāo)SSR;
顯示模塊:用于當(dāng)所述第一判斷模塊的判斷結(jié)果為否時,顯示所述待分析序列中不存在所述目標(biāo)SSR的信息。
優(yōu)選的,所述需要發(fā)掘的生物基因組簡單重復(fù)序列SSR的特征包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國農(nóng)業(yè)科學(xué)院煙草研究所,未經(jīng)中國農(nóng)業(yè)科學(xué)院煙草研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110414015.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





