[發明專利]基于子空間融合的蛋白質?維他命綁定位點預測方法有效
| 申請號: | 201410164632.1 | 申請日: | 2014-04-22 |
| 公開(公告)號: | CN103955628B | 公開(公告)日: | 2017-03-01 |
| 發明(設計)人: | 胡俊;於鉉;何雪;李陽;沈紅斌;楊靜宇 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F19/10 | 分類號: | G06F19/10 |
| 代理公司: | 南京理工大學專利中心32203 | 代理人: | 朱顯國 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 空間 融合 蛋白質 維他命 定位 預測 方法 | ||
1.一種基于子空間融合的蛋白質-維他命綁定位點預測方法,其特征在于,包括以下步驟:
步驟1、特征抽取與特征組合,即分別利用PSI-BLAST算法、PSIPRED算法抽取蛋白質的進化信息特征與二級結構信息特征,以及根據蛋白質-維他命綁定位點傾向表抽取蛋白質的綁定傾向性信息特征,前述三種特征組成原始特征空間;然后使用滑動窗口與串行組合方式將蛋白質序列中的氨基酸殘基轉換為向量形式表示;
步驟2、使用特征選擇算法即Joint?Laplacian?Feature?Weights?Learning算法、Fisher?Score算法以及Laplacian?Score算法,分別對原始特征空間進行多次特征選擇;每次特征選擇得到的特征子集構成一個特征子空間,從而構建多個特征子空間;
步驟3、對步驟2所得的每個特征子空間,訓練一個SVM分類器;
步驟4:使用加權平均的分類器融合方式對訓練完畢的多個SVM分類器進行融合;以及
步驟5、基于融合后的SVM預測器對待預測蛋白質進行蛋白質-維他命綁定位點預測。
2.根據權利要求1所述的基于子空間融合的蛋白質-維他命綁定位點預測方法,其特征在于,所述步驟1中,對于訓練蛋白質的特征抽取和串行組合包括以下步驟:
步驟1-1、對于一個由l個氨基酸殘基組成的蛋白質,通過PSI-BLAST算法獲取其位置特異性得分矩陣,該矩陣為一個l行20列的矩陣,從而將蛋白質一級結構信息轉換為矩陣形式表示:
其中:A、C...Y表示20種氨基酸殘基,pi,j表示蛋白質第i個氨基酸殘基在進化過程中突變成20種氨基酸殘基的第j個氨基酸殘基的可能性;
然后對PSSM中的每個值利用下述公式(2)進行逐行標準化處理:
標準化后的PSSM如式(3):
之后,再使用大小為W的滑動窗口,提取每個氨基酸殘基的特征矩陣:
最后,將上述特征矩陣(4)按行優先的方式組合成維數為20*W的特征向量:
步驟1-2、對于一個由l個氨基酸殘基組成的蛋白質,通過PSIPRED獲取其二級結構概率矩陣,該矩陣為一個l行3列的矩陣,如下式(6)所示:
其中,C、H...E表示蛋白質的三種二級結構:coil、helix、strand,si,1表示蛋白質中第i個氨基酸殘基的二級結構是coil的概率,si,2表示蛋白質中第i個氨基酸殘基的二級結構是helix的概率,si,3表示蛋白質中第i個氨基酸殘基的二級結構是strand的概率;
然后,利用上述步驟1-1的滑動窗口提取以及按行優先的方式組合得到每個氨基酸殘基的維數為3*W的特征向量,如下式(7)所示:
fi=(si,1,si,2,…,pi,3W)T???(7)
步驟1-3、對于一個由l個氨基酸殘基組成的蛋白質,通過查找蛋白質-維他命綁定位點傾向表得到含有其綁定傾向性信息的矩陣,該矩陣為一個l行1列的矩陣,如下式(8)所示:
其中,bi表示蛋白質中第i個氨基酸殘基綁定維他命的傾向性;
然后,利用上述步驟1-1的滑動窗口提取以及按行優先的方式組合得到每個氨基酸殘基的維數為1*W的特征向量,如下式(9)所示:
fi=(bi,1,bi,2,…,bi,W)T???(9)
步驟1-4、將上述步驟得到的3個特征向量串行組合,得到長度為20*W+3*W+1*W的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410164632.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙球式組合三通閥
- 下一篇:多葉片式天燃氣管路控制閥
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





