[發(fā)明專利]基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011389444.0 | 申請(qǐng)日: | 2020-12-01 |
| 公開(公告)號(hào): | CN112489723B | 公開(公告)日: | 2022-09-06 |
| 發(fā)明(設(shè)計(jì))人: | 於東軍;韓陽 | 申請(qǐng)(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號(hào): | G16B20/00 | 分類號(hào): | G16B20/00;G16B30/00 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 局部 進(jìn)化 信息 dna 結(jié)合 蛋白 預(yù)測 方法 | ||
本發(fā)明公開了一種基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測方法,具體步驟為:提取蛋白質(zhì)的進(jìn)化信息,將進(jìn)化信息分割成局部進(jìn)化信息,得到用于預(yù)測的特征向量;使用SVM?RFE+CBR特征提取方法,將特征向量依據(jù)其對(duì)模型的貢獻(xiàn)度進(jìn)行排序,去除無關(guān)特征;采用5折交叉驗(yàn)證方法將去除無關(guān)特征的特征向量分為5份,4份作為訓(xùn)練集輸入SVM模型對(duì)其進(jìn)行訓(xùn)練;對(duì)蛋白質(zhì)處理后將其特征向量輸入SVM模型,獲得預(yù)測結(jié)果。本發(fā)明將多種蛋白質(zhì)序列的特征相組合,結(jié)合蛋白質(zhì)的局部進(jìn)化信息與原進(jìn)化信息和氨基酸組成、二肽信息,充分包含了蛋白質(zhì)的局部與整體信息,提高了DNA結(jié)合蛋白預(yù)測的計(jì)算模型的精度。
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息學(xué)DNA結(jié)合蛋白預(yù)測領(lǐng)域,具體為一種基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測方法。
背景技術(shù)
依據(jù)序列信息鑒定DNA結(jié)合蛋白是基因組注釋領(lǐng)域最優(yōu)挑戰(zhàn)性的問題之一。DNA結(jié)合蛋白在各種細(xì)胞生物學(xué)過程中起著至關(guān)重要的作用,例如基因的表達(dá)與轉(zhuǎn)錄。但是,使用實(shí)驗(yàn)方法鑒定既耗時(shí)且昂貴的。面對(duì)日益龐大的后基因組時(shí)代的海量數(shù)據(jù),尋求一種快速且準(zhǔn)確預(yù)測蛋白質(zhì)是否為DBP的方法異常重要。
近年來,出現(xiàn)了許多針對(duì)DBP的預(yù)測方法,這些方法大致可以分為兩類,基于結(jié)構(gòu)的方法和基于序列的方法。基于結(jié)構(gòu)的方法主要使用蛋白質(zhì)的結(jié)構(gòu)信息,例如基于蛋白質(zhì)二級(jí)結(jié)構(gòu)構(gòu)造的α螺旋長度、氨基酸的空間組成及分子的偶極矩陣。Gregoret等人開發(fā)了基于蛋白質(zhì)的靜電荷,電耦矩陣張量為特征的神經(jīng)網(wǎng)絡(luò)模型。張浩等人從DNA結(jié)合蛋白的復(fù)雜結(jié)構(gòu)中提取新的信息,在DFIRE能量函數(shù)的基礎(chǔ)上引入新的體積分?jǐn)?shù)校正,并深入提取蛋白質(zhì)與DNA之間的結(jié)合親和力作為特征。通常,使用結(jié)構(gòu)信息的同時(shí)也會(huì)使用序列信息例如iDBP和DBD-Hunter。例如DBD-Hunter方法結(jié)合了結(jié)構(gòu)對(duì)比和統(tǒng)計(jì)趨勢的估計(jì),在對(duì)多種蛋白質(zhì)的識(shí)別預(yù)測準(zhǔn)確率高于其他同類預(yù)測器,但此方法需要目標(biāo)蛋白質(zhì)的結(jié)構(gòu)作為特征輸入,限制了該模型的推廣與應(yīng)用。雖然通過結(jié)構(gòu)信息進(jìn)行預(yù)測方法都取得了較高的準(zhǔn)確率,但由于蛋白質(zhì)結(jié)構(gòu)的數(shù)目相對(duì)于蛋白質(zhì)序列的數(shù)目過少,蛋白質(zhì)的結(jié)構(gòu)信息獲取相對(duì)滯后,這些方法都很難在后基因組時(shí)代推廣。另外,由于需要預(yù)測的蛋白質(zhì)往往數(shù)據(jù)庫中已存在的蛋白質(zhì)結(jié)構(gòu)相似度較小,因此,只依賴序列信息進(jìn)行預(yù)測更受青睞。
基于序列的預(yù)測方法只依賴蛋白質(zhì)序列信息以預(yù)測DNA結(jié)合蛋白。近年來,一系列方法被應(yīng)用于預(yù)測DBP,例如:PseDNA-Pro,iDNAPro-PseAAC,iDNA-Prot,Local-DPP,StackDPPred,K-PSSM-Composition,TargetDBP。這些方法只需要使用序列信息以模板匹配或者機(jī)器學(xué)習(xí)的方法進(jìn)行預(yù)測DBP。其通常先通過特征提取,將特征輸入到支持向量機(jī)或隨機(jī)森林中。例如,在iDNA-Prot中,其使用灰色系統(tǒng)理論提取的偽氨基酸組合物用于代表蛋白質(zhì)的成分特征,使用隨機(jī)森林生成模型并進(jìn)行分析預(yù)測。在Local-DPP中,其使用位置特異性得分矩陣的局部進(jìn)化信息作為特征,最大限度的提取局部信息,其首先將PSSM進(jìn)行分割為n個(gè)子矩陣,計(jì)算每段中各氨基酸進(jìn)化成其他氨基酸的概率,結(jié)合子矩陣氨基酸序列,從而拼接成全局特征,用以生成預(yù)測模型。在TargetDBP中,其使用氨基酸組成(AAC),偽位置特異性得分矩陣等作為其特征向量,通過特征選擇和差分進(jìn)化組合優(yōu)化不同的特征,輸入至支持向量機(jī)中進(jìn)行學(xué)習(xí)。
然而,多數(shù)預(yù)測模型對(duì)于局部信息提取大量參數(shù),輸入?yún)?shù)量龐大,從而削弱了全局信息對(duì)模型貢獻(xiàn)度的影響。雖然在一些模型中使用算法平衡全局與局部信息的權(quán)重,但是大量無用信息使得模型規(guī)模過于龐大冗余,從而導(dǎo)致模型在預(yù)測效率上的不足。
發(fā)明內(nèi)容
本發(fā)明提出了一種基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測方法。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案為:一種基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測方法,具體步驟為:
步驟1:提取蛋白質(zhì)的進(jìn)化信息,將進(jìn)化信息分割成局部進(jìn)化信息,得到用于預(yù)測的特征向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011389444.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種基因內(nèi)含子進(jìn)化重構(gòu)裝置及方法
- 流感H5疫苗
- 基于云進(jìn)化跟蹤太陽能路燈最大功率點(diǎn)的方法及系統(tǒng)
- AprL-進(jìn)化枝蛋白酶變體及其用途
- 一種基于可進(jìn)化脈沖神經(jīng)網(wǎng)絡(luò)的鳶尾花卉分類方法和裝置
- 一種基于環(huán)境性能需求的產(chǎn)品進(jìn)化設(shè)計(jì)決策方法
- 一種分組進(jìn)化的高維粒子群尋優(yōu)方法
- 基于進(jìn)化樹的模擬生物教學(xué)方法以及裝置
- 一種印刷廢氣進(jìn)化處理裝置
- 一種基于進(jìn)化樹的創(chuàng)新設(shè)計(jì)教學(xué)裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





