[發明專利]一種基于多元數據預測DNA突變影響蛋白互作的預測方法有效
| 申請號: | 201611255461.9 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106778065B | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 趙興明;何峰 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多元 數據 預測 dna 突變 影響 蛋白 方法 | ||
1.一種基于多元數據預測DNA突變影響蛋白互作的預測方法,其特征在于,包括:
步驟1、整理HPRD、BioGrid、IntAct、MINT和DIP五個蛋白互作數據庫包含的所有非冗余蛋白互作對,用來判斷蛋白之間是否存在蛋白互作;
步驟2、結合NCBI提供的dbSNP數據,利用軟件Polyphen2、SIFT、MutationAsseso計算出SNP引起蛋白序列上氨基酸突變數據庫,做記錄,用來判定SNP是否引起蛋白上氨基酸突變;
步驟3、結合PDB數據庫中提供的蛋白互作結構信息,整理出蛋白互作面信息,應用實施步驟2中數據庫,判斷SNP引起的氨基酸突變是否發生在蛋白互作面上;
步驟4、應用實施步驟1-3中SNP引起氨基酸突變且突變發生在蛋白互作面上的SNP與蛋白互作對作為樣本,利用Mechismo提供的蛋白互作面上氨基酸變異概率矩陣,結合公式(1),計算SNP引起氨基酸突變是否破壞蛋白互作
Labi=ajm-ajn (1)
其中Labi表示第i個樣本,ajm、ajn分別表示變異后與變異前的氨基酸對出現的概率,當Labi大于等于0時,表示在第i個樣本中,SNP引起的氨基酸突變沒有破壞蛋白互作,為負樣本;而當Labi小于0時,表示SNP引起的氨基酸突變破壞了蛋白互作,為正樣本;此處只用來計算樣本標簽;
步驟5、根據實施步驟4中的樣本,以每個樣本氨基酸變異點為中心,在蛋白互作面上取長度為15的氨基酸序列窗口,提取該窗口蛋白質結構、功能和序列相關的七個特征,具體實施如下:
步驟(51)、對窗口兩條序列,按照窗口大小為2進行窗口滑動提取氨基酸對,統計氨基酸對頻率,得相應特征,每個特征即為相應氨基酸對頻率;
步驟(52)、基于20種氨基酸,提取每種氨基酸的理化性質,提取每個樣本的蛋白互作面窗口相應理化屬性值構建特征向量,又得相應特征;
步驟(53)、基于每個樣本PDB文件,利用PSAIA軟件計算蛋白互作面窗口序列的相應數量個單體及化合物狀態的蛋白結構特征,相對信息利用公式(2)進行計算:
ASARC=(ASAM-ASAC)/ASAM
DIRC=(DIC-DIM)/DIC
PIRC=(PIM-PIC)/PIM (2)
M:Unbound C:Bound
步驟(54)、基于每一個樣本的蛋白互作面窗口序列信息,結合NCBI提供的psi-blastp算法以及非冗余序列數據庫,分別計算窗口中兩條氨基酸序列的序列保守性PSSM,將矩陣所有元素按列依次放入向量中,共得相應個特征;
步驟(55)、對每一個樣本,從相應PDB文件中提取蛋白互作面窗口序列中每一個氨基酸溫度信息,共得相應個特征;
步驟(56)、基于樣本中涉及到的兩個蛋白質,利用公式(3)求出PPI比
其中N(Pi)表示取與蛋白質Pi有相互作用關系的蛋白質集合;
步驟(57)、基于樣本中SNP引起的突變氨基酸,提取打分矩陣BLOSUM62中的對應該氨基酸變異前后的值,是一個一維特征;
步驟6、基于實施步驟(54)-步驟(55)中得出的樣本和特征,以SVM和貪婪算法思想為基礎進行特征選擇,過程如下:
步驟(61),首先對所有的特征利用公式(4)進行歸一化:
其中,表示第j類的第i個特征,表示這個特征在所有樣本上面的平均值,表示這個特征的標準差;
步驟(62),將兩個一維特征PPI Ratio和BLOSUM62放入另外五類特征中,即對另五類特征分別追加兩維特征;
步驟(63),對這五類特征用Signal-to-Noise Ratio來確定每一類的初始特征,如公式(5):
其中,和分別表示第j類的第i個特征的正樣本和負樣本的均值,同理,和分別表示第j類的第i個特征的正樣本和負樣本的標準差,選取SNRji值最大的特征作為第j類的初始特征;
步驟(64),以SVM算法為基礎結合貪婪算法思想,在確定每一類特征初始特征基礎上,結合十折交叉驗證,依次遍歷剩余特征,與初始特征構成二維特征向量,計算平均F1值,并提取當平均F1達到最大值時的特征組合;
重復上述過程依次加入特征,直至測試集上平均F1不再增大;至此,對這一類特征來說,特征選擇完成,得到最優的特征組合、由這些特征訓練的SVM模型與最優F1;F1值計算如公式(6)所示:
其中TP、FP、TN、FN分別表示真陽、假陽、真陰、假陰的樣本數量;
步驟(65),基于實施步驟5中得到的五類特征的特征選擇結果、最大F1值F1k,k∈{1,2,3,4,5}和SVM模型svmk,k∈{1,2,3,4,5},采用多數表決結合策略,構建集成分類器如公式(7)所示,預測SNP引起的氨基酸突變是否破壞蛋白互作:
其中F1k表示五類特征中每一類特征的最優F1值,svmk表示的是實施步驟5中得到的每一類特征的SVM模型,表示的是PPIj基于SNPi作用在第k類特征上取得的特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611255461.9/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





