[發(fā)明專(zhuān)利]一種釀酒酵母菌中DNA復(fù)制起點(diǎn)的預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010636957.0 | 申請(qǐng)日: | 2020-07-03 |
| 公開(kāi)(公告)號(hào): | CN111755074B | 公開(kāi)(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 樊永顯;王婉茹 | 申請(qǐng)(專(zhuān)利權(quán))人: | 桂林電子科技大學(xué) |
| 主分類(lèi)號(hào): | G16B40/00 | 分類(lèi)號(hào): | G16B40/00;G16B30/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 桂林市華杰專(zhuān)利商標(biāo)事務(wù)所有限責(zé)任公司 45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣*** | 國(guó)省代碼: | 廣西;45 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 釀酒 酵母菌 dna 復(fù)制 起點(diǎn) 預(yù)測(cè) 方法 | ||
本發(fā)明公開(kāi)了一種釀酒酵母菌中DNA復(fù)制起點(diǎn)的預(yù)測(cè)方法,步驟為:獲取釀酒酵母菌中的正樣本序列和負(fù)樣本序列;使用二進(jìn)制編碼法和PSEKNC?I兩種方法提取特征;使用F?score和IFS方法對(duì)PSEKNC?I法得到的特征進(jìn)行篩選,得到預(yù)篩選特征;將二進(jìn)制編碼法得到特征和預(yù)篩選特征進(jìn)行組合,獲得特征組合后的樣本數(shù)據(jù)集;構(gòu)建CNN預(yù)測(cè)模型并訓(xùn)練,輸入數(shù)據(jù)獲得初步預(yù)測(cè)結(jié)果;調(diào)整訓(xùn)練后CNN預(yù)測(cè)模型中參數(shù),對(duì)訓(xùn)練后的CNN預(yù)測(cè)模型進(jìn)行優(yōu)化;使用五折交叉驗(yàn)證法對(duì)優(yōu)化后的CNN預(yù)測(cè)模型進(jìn)行評(píng)估最終得到最優(yōu)的CNN預(yù)測(cè)模型,將數(shù)據(jù)輸入最優(yōu)模型中,得到最終的預(yù)測(cè)結(jié)果。該方法提取多種DNA信息中的特征,減少了計(jì)算時(shí)間,避免過(guò)擬合現(xiàn)象,選出最優(yōu)的分類(lèi)模型,提高了預(yù)測(cè)復(fù)制起點(diǎn)預(yù)測(cè)的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息學(xué)中序列相互作用的分類(lèi)預(yù)測(cè)技術(shù)領(lǐng)域,具體是一種釀酒酵母菌中DNA復(fù)制起點(diǎn)的預(yù)測(cè)方法。
背景技術(shù)
近年來(lái),生物信息學(xué)和計(jì)算機(jī)科學(xué)相結(jié)合而衍生出一個(gè)新的研究方向,即以核苷酸、蛋白質(zhì)、基因序列數(shù)據(jù)集作為主要研究對(duì)象,并利用數(shù)學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)等手段,以計(jì)算機(jī)硬件、軟件和計(jì)算機(jī)網(wǎng)絡(luò)為主要工具,對(duì)數(shù)量極其龐大的原始數(shù)據(jù)進(jìn)行存儲(chǔ)、管理、注釋、加工,使之成為具有明確生物意義的生物信息。并通過(guò)對(duì)生物信息的查詢(xún)、探索、比較、分析,從中獲取基因編碼、基因調(diào)控、核苷酸和蛋白質(zhì)結(jié)構(gòu)功能機(jī)器相互關(guān)系等理性知識(shí)。在大量的信息和知識(shí)的基礎(chǔ)上,探索生命起源、生物進(jìn)化以及細(xì)胞器官和個(gè)體的發(fā)生、發(fā)育病變、衰亡等生命科學(xué)重大的問(wèn)題,搞清他們的基本規(guī)律和時(shí)空聯(lián)系。最終通過(guò)對(duì)生物實(shí)驗(yàn)數(shù)據(jù)的獲取、加工、存儲(chǔ)檢索和分析,進(jìn)而達(dá)到節(jié)食數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義的目的。就基因組來(lái)說(shuō),得到序列僅僅是第一步,后一步工作是所謂基因組時(shí)代的任務(wù),及收集、整理、檢索和分析序列中表達(dá)的結(jié)構(gòu)和功能信息,找出規(guī)律。
生命的傳承以及基因的傳遞依靠的主要方式就是DNA的復(fù)制,而復(fù)制起點(diǎn) (ORI)決定著復(fù)制的開(kāi)始,準(zhǔn)確地識(shí)別復(fù)制起點(diǎn)不僅有助于優(yōu)化基因的表達(dá),并且可以給遺傳病中的新藥研究提供新的策略。復(fù)制起始在時(shí)間、位置上的錯(cuò)誤以及復(fù)制過(guò)程中核苷酸的錯(cuò)配,均會(huì)導(dǎo)致DNA序列突變、基因組重組等事件的發(fā)生,增加錯(cuò)誤遺傳信息的傳遞,增強(qiáng)細(xì)胞基因組的不穩(wěn)定性。這樣就會(huì)直接影響到細(xì)胞的正常分裂和胚胎的正常發(fā)育,也與癌癥以及眾多遺傳疾病的發(fā)生密切相關(guān)因此,準(zhǔn)確鑒定DNA復(fù)制起點(diǎn)在基因研究中至關(guān)重要。
迄今為止,已經(jīng)有很多針對(duì)于ORI的研究,這些研究都取得一定的成果。 2004年,Cozzarelli課題組利用復(fù)制起始區(qū)富含AT堿基的自復(fù)制一致性序列 (ACS)和富含A堿基的3'區(qū)域作為序列特征,通過(guò)Oriscan算法對(duì)酵母復(fù)制起始位點(diǎn)進(jìn)行了預(yù)測(cè)。2014年,Li通過(guò)計(jì)算GC profile和GC skew的值去分析釀酒酵母基因的組分偏差,利用一型偽核苷酸組分來(lái)提取序列信息并構(gòu)建了一個(gè)在線預(yù)測(cè)器iORI-PseKNC去識(shí)別釀酒酵母的復(fù)制起始位點(diǎn)序列。2016年,Zhang 初次嘗試構(gòu)建人類(lèi)ORI數(shù)據(jù)集,并基于隨機(jī)森林分類(lèi)器用一型偽核苷酸組分提取信息構(gòu)建iOri-Human在線預(yù)測(cè)器來(lái)識(shí)別人類(lèi)ORIs。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有的DNA復(fù)制起點(diǎn)的預(yù)測(cè)準(zhǔn)確率的問(wèn)題,而提供一種釀酒酵母菌中DNA復(fù)制起點(diǎn)的預(yù)測(cè)方法,該預(yù)測(cè)方法可以提取多種DNA 信息中的特征,還減少計(jì)算時(shí)間,避免出現(xiàn)過(guò)擬合現(xiàn)象,同時(shí)還構(gòu)建出最優(yōu)的分類(lèi)模型,提高預(yù)測(cè)復(fù)制起點(diǎn)的準(zhǔn)確率。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是:
一種釀酒酵母菌中DNA復(fù)制起點(diǎn)的預(yù)測(cè)方法,包括如下步驟:
1)獲取樣本數(shù)據(jù)集:獲取釀酒酵母菌中的正樣本序列和負(fù)樣本序列;
2)特征提取:使用二進(jìn)制編碼法和PSEKNC-I兩種方法表示樣本序列,即使用一個(gè)向量表示每一條NDA序列;
3)特征選擇:使用F-score方法和增量特征選擇方法(Incremental FeatureSelect,IFS)對(duì)步驟2)中使用PSEKNC-I法得到的特征進(jìn)行篩選,得到預(yù)篩選特征;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于桂林電子科技大學(xué),未經(jīng)桂林電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010636957.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 核酸外切酶保護(hù)DNA探針雜交DNA微陣列芯片檢測(cè)DNA結(jié)合蛋白
- DNA的合成方法
- 一種基因組DNA提取方法
- 用于產(chǎn)生由單分子DNA形成的環(huán)狀DNA的方法
- 在DNA分子的環(huán)化中僅選擇由單分子形成的環(huán)化DNA的方法
- 基于靶標(biāo)蛋白誘導(dǎo)DNA酶循環(huán)生成的均相免疫分析方法
- 一種測(cè)序用DNA文庫(kù)
- 一種無(wú)立足點(diǎn)和分支遷移域的DNA鏈置換新方法
- 一種DNA功能化納米金探針及其檢測(cè)端粒酶的應(yīng)用
- 一種不產(chǎn)生DNA雙鏈斷裂的實(shí)現(xiàn)植物基因替換的方法
- 內(nèi)容管理方法以及內(nèi)容管理裝置
- 用于更新輸入數(shù)據(jù)的復(fù)制控制信息的設(shè)備和方法
- 非易失性存儲(chǔ)裝置以及存儲(chǔ)控制器
- 一種組播報(bào)文兩級(jí)復(fù)制方法及裝置
- 存儲(chǔ)系統(tǒng)、信息處理系統(tǒng)及非易失性存儲(chǔ)器的控制方法
- 數(shù)據(jù)復(fù)制裝置以及計(jì)算機(jī)能讀取的存儲(chǔ)介質(zhì)
- 一種快速?gòu)?fù)制PCB線段的方法及系統(tǒng)
- 一種復(fù)制方法、裝置和終端
- 一種基于區(qū)塊鏈的區(qū)塊復(fù)制方法、裝置、設(shè)備及介質(zhì)
- 一種數(shù)據(jù)復(fù)制粘貼方法、系統(tǒng)及電子設(shè)備





