[發明專利]基于有監督上采樣學習的蛋白質?核苷酸綁定位點預測方法有效
| 申請號: | 201410223569.4 | 申請日: | 2014-05-25 |
| 公開(公告)號: | CN104077499B | 公開(公告)日: | 2018-01-05 |
| 發明(設計)人: | 於東軍;胡俊;何雪;李陽;沈紅斌;楊靜宇 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F19/16 | 分類號: | G06F19/16 |
| 代理公司: | 南京理工大學專利中心32203 | 代理人: | 朱顯國 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 采樣 學習 蛋白質 核苷酸 定位 預測 方法 | ||
1.一種基于有監督上采樣學習的蛋白質-核苷酸綁定位點預測方法,其特征在于,包括以下步驟:
步驟1:基于輸入的蛋白質序列信息,進行多視角特征抽取與特征組合,即分別使用PSI-BLAST算法抽取蛋白質序列的進化信息,利用PSIPRED算法抽取蛋白質序列的二級結構信息;然后利用滑動窗口方式與特征串行組合方式,將蛋白質序列中的每個氨基酸殘基進行多視角特征表示;
步驟2:根據訓練數據集合中綁定核苷酸的氨基酸殘基與未綁定核苷酸的氨基酸殘基的不平衡分布情況,使用有監督的上采樣學習方法對缺失的正樣本信息進行補充,生成最終的訓練樣本集合;
步驟3:使用標準的支持向量機模型,在步驟2所得到的訓練樣本集合中訓練產生蛋白質-核苷酸綁定位點預測模型;以及
步驟4:對于每個待預測蛋白質序列,首先通過步驟1的方式得到該蛋白質序列中的每一個氨基酸殘基的多視角特征,然后使用步驟3中的蛋白質-核苷酸綁定位點預測模型進行綁定概率預測,概率高于指定閾值的氨基酸殘基被預測為綁定殘基;
其中,在所述步驟1中,按照下述步驟進行多視角特征的抽取與串行組合:
①從進化信息視角抽取蛋白質氨基酸殘基的特征
對于一個含有l個氨基酸殘基的蛋白質序列P,首先通過PSI-BLAST算法計算獲取其位置特異性得分矩陣,該PSSM矩陣是一個l行20列的矩陣,從而將蛋白質一級結構信息轉換為矩陣形式,表達如下:
其中:A、R、...、V表示20種常見氨基酸殘基,oi,j表示蛋白質第i個氨基酸殘基在進化過程中突變成20種常見氨基酸殘基中的第j種氨基酸殘基的可能性;
然后對進行歸一化處理,使用如下公式(2)的sigmoid函數對上述中的每一個值進行逐行標準化處理:
標準化后的PSSM,表達如下:
再次,對于蛋白質序列P中的第i個氨基酸殘基,以PSSM中的第i行為中心,使用一個寬度為W的窗口,該窗口內所有元素構成第i個氨基酸殘基的PSSM特征矩陣,表達如下:
最后,將上述特征矩陣(4)按行優先的組合方式形成維數為20×W的特征向量:
②從二級結構視角抽取蛋白質氨基酸殘基的特征
對于一個含有l個氨基酸殘基的蛋白質P,首先通過PSIPRED算法生成蛋白質序列P的二級結構矩陣,該矩陣大小為l×3,表達如下:
其中,C、H、E分別表示蛋白質的三種二級結構,即coil、helix、strand,si,1表示蛋白質P中第i個氨基酸殘基的二級結構是coil的概率,si,2表示蛋白質中第i個氨基酸殘基的二級結構是helix的概率,si,3表示蛋白質中第i個氨基酸殘基的二級結構是strand的概率;
然后,使用上述同樣的寬度為W的滑動窗口與按行優先的組合方式,將該窗口內的所有元素形成一個維數為3×W的特征向量:
③將上述步驟得到的特征向量和特征向量串行組合,得到蛋白質P中的第i個氨基酸殘基的特征向量,其維數為20×W+3×W;
重復上述①、②、③步驟,生成所有氨基酸殘基的特征向量;
其中,在所述步驟2中,使用所述有監督的上采樣學習方法的具體實現包括以下步驟:
①對于原始樣本空間的數據S=S+∪S-,其中表示正樣本集合,表示負樣本集合,N+、N-分別表示正樣本集合與負樣本集合的樣本數,前述正樣本是指綁定核苷酸的一個氨基酸殘基,負樣本是指未綁定核苷酸的一個氨基酸殘基;按照式(8)訓練一個初始的預測模型Modelinit:
Modelinit=Train(S+∪S-)(8)
其中,Train(·)表示使用LIBSVM中的svm-train程序實現的SVC分類方法訓練預測模型;
②從正樣本集合S+中隨機選擇兩個正樣本使用式(9)構造一個人工合成的樣本xnew:
其中,λ為0到1之間的隨機值,然后根據式(10),使用上述構造的初始預測模型Modelinit對xnew進行預測,得到xnew被式(10)預測為正樣本的概率P(xnew):
P(xnew)=Predict(Modelinit,xnew)(10)
這里Predict(·)表示應用LIBSVM中的svm-predict程序使用Modelinit預測xnew為正樣本的概率;P(xnew)為0到1之間的值;
③根據上述得到的預測概率P(xnew)對xnew能否加入正樣本集合進行判斷,如果P(xnew)∈[0.7,0.9],則可以將加入到正樣本集合S+,如果P(xnew)>0.9,則認為在S+中可以找到xnew的近似樣本,為了防止最終預測模型的過擬合情況,所以將xnew丟棄,如果P(xnew)<0.7,則認為xnew樣本為正樣本的可信度不高,為了防止加入噪音樣本,所以將xnew丟棄;
④重復上述①、②、③三個步驟直至|S+|=β|S-|,其中|S+|表示S+樣本集合的樣本數目,|S-|表示S-樣本集合的樣本數目,β表示正樣本數目與負樣本數目的比率,β的值為0到1之間的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410223569.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





