[發明專利]基于兩層SVM學習機制的蛋白質結晶預測方法有效
| 申請號: | 201510047426.7 | 申請日: | 2015-01-29 |
| 公開(公告)號: | CN104636635B | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 於東軍;胡俊;何雪;李陽;沈紅斌;楊靜宇 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F19/16 | 分類號: | G06F19/16;G06F19/24 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 王培松 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視角特征 預測 兩層 蛋白質結晶 蛋白質 進化 蛋白質序列信息 物理化學屬性 閾值分割技術 視角 概率輸出 鑒別信息 信息丟失 序列信息 預測模型 預測能力 最終決策 第一層 再使用 氨基酸 抽取 概率 | ||
1.一種基于兩層SVM學習機制的蛋白質結晶預測方法,其特征在于,包括以下步驟:步驟1:特征提取,使用PSI-BLAST提取蛋白質的進化信息,并結合蛋白質序列信息與氨基酸的物理化學屬性信息,通過抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五個視角特征,將蛋白質序列轉換為數值形式表示;
步驟2:根據步驟1將訓練數據集合中所有的蛋白質序列進行不同視角的特征表示,形成五個不同視角的訓練樣本集合,然后使用兩層SVM預測算法2L-SVM在五個不同視角的訓練樣本集合上訓練成一個蛋白質結晶2L-SVM預測模型;
步驟3:對于每個待預測結晶能力的蛋白質序列,通過步驟1得到此蛋白質序列五個不同視角的特征,使用步驟2中訓練的蛋白質結晶2L-SVM預測模型進行蛋白質結晶概率預測,最終輸出預測概率;以及
步驟4:對于步驟3中待預測的蛋白質序列,根據步驟3中的輸出概率使用閾值分割方法,最終輸出該蛋白質序列是否可結晶的決策;
在所述的步驟1中,按照下述步驟進行不同視角特征的抽取:
A.抽取AAC視角特征
對于任意一個長度為l的蛋白質序列P,其蛋白質序列中所有氨基酸種類出現的次數,記作:
CountAA=(nA,nC,…,nY)T (1)
其中A、C、…、Y分別表示20種常見氨基酸殘基,nA、nC和nY分別表示蛋白質序列P中氨基酸A、C以及Y的個數;
表示蛋白質氨基酸組成成分的AAC視角特征可以表示為:
B.抽取DiAAC視角特征
對于任意長度為l的蛋白質序列P,通過如下等式表示蛋白質的DiAAC視角的特征:
其中A,A、A,C、…、Y,Y分別表示20種氨基酸的兩兩組合,nA,A、nA,C和nY,Y分別表示蛋白質序列中存在氨基酸對A,A、A,C以及Y,Y的數目;
C.抽取TriAAC視角特征
對于任意含有l個氨基酸殘基的蛋白質序列P,通過如下等式表示TriAAC視角特征:
其中A,A,A、A,A,C、…、Y,Y,Y分別表示20種氨基酸的三肽組合,nA,A,A、nA,A,C和nY,Y,Y分別表示蛋白質序列中存在氨基酸對A,A,A、A,A,C以及Y,Y,Y的數目;
D.抽取PseAAC視角特征
每一種氨基酸都有固有的物理化學屬性,從這些物理化學屬性中抽取PseAAC視角的特征,具體步驟如下:
(1)使用步驟A中計算AAC的方法,計算蛋白質的氨基酸組成成分,記作:
(2)計算蛋白質序列中每個不同的物理化學屬性所對應的協相關信息,具體步驟如下:首先計算蛋白質在第k個物理化學屬性上的第λ層次的協相關信息:
其中表示蛋白質中第i個氨基酸與第i+λ個氨基酸在第k個物理化學屬性上的第λ層次的協相關信息;表示蛋白質中第i個氨基酸在第k個物理化學屬性上的得分數值;
然后計算蛋白質在第k個物理化學屬性上的所有層次的協相關信息,記作:
其中Λ為最大層次;
最后計算蛋白質在所有物理化學屬性上的協相關信息,記作:
τ=(τ1,τ2,…,τK) (8)
其中K表示AAIndex中物理化學屬性的數目;
(3)結合AAC信息與協相關信息,最終形成PseAAC視角特征,記作:
PseAAC=(x1,…,xμ,…,xK·Λ,x1+K·Λ,…,x20+K·Λ)T (9)
其中
其中表示上取整運算,w表示PseAAC的權重;
E.抽取PsePSSM視角特征
對于一個含有l個氨基酸殘基的蛋白質序列P,首先通過PSI-BLAST算法計算獲取其位置特異性得分矩陣PSSM,該PSSM矩陣是一個l行20列的矩陣,從而將蛋白質的一級結構信息轉換為矩陣形式,表達如下:
其中A、C、…、Y表示20種氨基酸殘基,oi,j表示蛋白質第i個氨基酸殘基在進化過程中突變成20種氨基酸殘基中的第j種氨基酸殘基的可能性;
然后對進行歸一化處理,使用下述函數對中的每一個值進行標準化處理:
標準化后的PSSM,表達如下:
再次,對于標準化后的PSSM,使用PsePSSM算法將不等長的進化信息矩陣轉化為等長特征向量,具體方法如下:
(1)在Ppssm中挖掘蛋白質進化信息中不同層次的氨基酸位置關系信息λk,表達如下:
其中1≤j≤20,1≤k≤K;K表示可以挖掘氨基酸位置關系信息的最大層次,至此可以獲得K個不同層次的氨基酸位置關系信息;
(2)對Ppssm的每一列求均值,得到一個20維的特征向量:
CPSSM=(p1,p2,…,pj,…,p20) (15)
其中
(3)最后將K個不同層次的氨基酸位置關系信息與CPSSM串行組合起來,得到蛋白質序列的PsePSSM特征信息:
PsePSSMK=(λ1,λ2,…,λK,CPSSM)T, (16)
在所述步驟2,根據步驟1中得到的五種視角特征信息,組成五個不同視角的訓練樣本集合,并結合五個訓練樣本集合的正負樣本分布情況,訓練一個2L-SVM預測模型,具體步驟如下:
A.對于任意第v個視角的訓練樣本集合其中表示第i個樣本的第v個視角的特征向量,yi表示第i個樣本的類別,N表示樣本數目,使用標準的SVM程序算法求解如下有關SVM最優化問題:
其中wv是最優分割超平面的法向量、γv>0是SVM正則化參數、表示訓練數據集合Dv中第i個樣本的懲罰項、φv(·)是可以將特征向量映射到高維Hilbert空間的映射函數,最終得到第v個視角的SVM預測模型,記作SVMv;
B.為了訓練2L-SVM預測模型的第二層模型SVMEn,在五個視角下的訓練樣本集合上分別使用交叉驗證策略得到五個視角下的概率輸出,然后這五個概率輸出與訓練集合類別組成了新的訓練數據集合,記作:其中表示第i個樣本在第v個視角上交叉驗證得到的概率輸出,再次使用標準的SVM程序在DEn數據集合上訓練一個最優的分類超平面,從而構成2L-SVM預測模型中的第二層模型SVMEn;
C.將步驟A中得到的五個預測模型的五個輸出概率作為步驟B中得到的預測模型SVMEn的輸入,從而構成了2L-SVM預測模型;
在所述步驟3中,對于每個待預測結晶能力的蛋白質序列,通過步驟1得到此蛋白質序列五個不同視角的特征,分別輸入到步驟2中訓練的2L-SVM預測模型進行蛋白質結晶概率預測,最終輸出預測概率;
在所述步驟4中,針對步驟3中得到的輸出概率,使用閾值分割方法進行蛋白質是否結晶的最終決策,閾值取值范圍為0~1,且前述閾值取值滿足以下條件:使得預測結果的馬氏相關系數最大化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510047426.7/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





