[發(fā)明專利]基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011389444.0 | 申請(qǐng)日: | 2020-12-01 |
| 公開(kāi)(公告)號(hào): | CN112489723B | 公開(kāi)(公告)日: | 2022-09-06 |
| 發(fā)明(設(shè)計(jì))人: | 於東軍;韓陽(yáng) | 申請(qǐng)(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號(hào): | G16B20/00 | 分類號(hào): | G16B20/00;G16B30/00 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210094 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 局部 進(jìn)化 信息 dna 結(jié)合 蛋白 預(yù)測(cè) 方法 | ||
1.一種基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法,其特征在于,具體步驟為:
步驟1:提取蛋白質(zhì)的進(jìn)化信息,將進(jìn)化信息分割成局部進(jìn)化信息,得到用于預(yù)測(cè)的特征向量,具體方法為:
提取蛋白質(zhì)的位置特異性得分矩陣;
對(duì)所述位置特異性得分矩陣進(jìn)行分割,得到k個(gè)子矩陣;
對(duì)于每個(gè)子矩陣,獲得其兩種特征,其一:依據(jù)子矩陣序列信息統(tǒng)計(jì)序列中每種氨基酸進(jìn)化成20種氨基酸概率之和;其二:統(tǒng)計(jì)子矩陣中每種氨基酸進(jìn)化成20種氨基酸中的各種氨基酸概率之和;將兩種特征組合得到蛋白質(zhì)的序列進(jìn)化特征;
將蛋白質(zhì)的序列進(jìn)化特征、蛋白質(zhì)序列的氨基酸組成以及蛋白質(zhì)二肽信息相結(jié)合,得到用于預(yù)測(cè)的特征向量;
步驟2:使用SVM-RFE+CBR特征提取方法,將步驟1中的特征向量依據(jù)其對(duì)模型的貢獻(xiàn)度進(jìn)行排序,去除無(wú)關(guān)特征;
步驟3:采用5折交叉驗(yàn)證方法將去除無(wú)關(guān)特征的特征向量分為5份,4份作為訓(xùn)練集輸入SVM模型對(duì)其進(jìn)行訓(xùn)練;
步驟4:按照步驟1、2對(duì)蛋白質(zhì)處理后輸入步驟3得到的模型,獲得預(yù)測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法,其特征在于,k個(gè)子矩陣中,前k-1個(gè)子矩陣大小為第k個(gè)子矩陣大小為n為蛋白質(zhì)序列中氨基酸個(gè)數(shù)。
3.根據(jù)權(quán)利要求1所述的基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法,其特征在于,對(duì)于每個(gè)子矩陣,獲得序列中每種氨基酸進(jìn)化成20種氨基酸概率之和的具體方法為:
對(duì)每個(gè)子矩陣進(jìn)行歸一化:
其中:
式中,P′i,j為每個(gè)子矩陣中蛋白質(zhì)序列S出現(xiàn)在第i位置的氨基酸進(jìn)化成20種氨基酸中第j位置的氨基酸的概率;
統(tǒng)計(jì)序列中每個(gè)氨基酸進(jìn)化成20種氨基酸概率之和為:
subPSSMevolution=[S1S2...Si...Sd+U(λ)]T
其中,Si表示第i個(gè)氨基酸進(jìn)化成20種氨基酸的概率之和。
4.根據(jù)權(quán)利要求1所述的基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法,其特征在于,所述蛋白質(zhì)序列的氨基酸組成為:
其中T代表矩陣的轉(zhuǎn)置,L為蛋白質(zhì)序列的長(zhǎng)度,ni為第i種氨基酸在長(zhǎng)度為L(zhǎng)的氨基酸序列中出現(xiàn)的頻率。
5.根據(jù)權(quán)利要求1所述的基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法,其特征在于,對(duì)SVM模型預(yù)測(cè)時(shí),將預(yù)測(cè)的概率值轉(zhuǎn)化為真假值與實(shí)際蛋白質(zhì)是否為DNA結(jié)合蛋白的真假值進(jìn)行計(jì)算,得到模型評(píng)價(jià)指標(biāo);
使用網(wǎng)格搜索算法,通過(guò)預(yù)設(shè)SVM初始參數(shù)區(qū)間范圍以及模型評(píng)價(jià)指標(biāo)的閾值范圍,選擇獲得最優(yōu)評(píng)價(jià)指標(biāo)時(shí)的參數(shù)作為最終模型參數(shù)。
6.根據(jù)權(quán)利要求5所述的基于局部進(jìn)化信息的DNA結(jié)合蛋白預(yù)測(cè)方法,其特征在于,所述模型評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、敏感性、特異性以及馬修相關(guān)系數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011389444.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基因內(nèi)含子進(jìn)化重構(gòu)裝置及方法
- 流感H5疫苗
- 基于云進(jìn)化跟蹤太陽(yáng)能路燈最大功率點(diǎn)的方法及系統(tǒng)
- AprL-進(jìn)化枝蛋白酶變體及其用途
- 一種基于可進(jìn)化脈沖神經(jīng)網(wǎng)絡(luò)的鳶尾花卉分類方法和裝置
- 一種基于環(huán)境性能需求的產(chǎn)品進(jìn)化設(shè)計(jì)決策方法
- 一種分組進(jìn)化的高維粒子群尋優(yōu)方法
- 基于進(jìn)化樹(shù)的模擬生物教學(xué)方法以及裝置
- 一種印刷廢氣進(jìn)化處理裝置
- 一種基于進(jìn)化樹(shù)的創(chuàng)新設(shè)計(jì)教學(xué)裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





