[發明專利]蛋白質功能標注方法及系統有效
| 申請號: | 201611128108.4 | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN106599611B | 公開(公告)日: | 2019-04-30 |
| 發明(設計)人: | 鄧磊;曾丞 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00 |
| 代理公司: | 長沙朕揚知識產權代理事務所(普通合伙) 43213 | 代理人: | 何湘玲 |
| 地址: | 410000 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 蛋白質 功能 標注 方法 系統 | ||
1.一種蛋白質功能標注方法,其特征在于,包括:
步驟S1、根據待查詢蛋白質的代表結構查找第一級結構鄰居;
步驟S2、搜索所述待查詢蛋白質的同源序列,根據同源序列的代表結構查找所述待查詢蛋白質的第二級結構鄰居;
步驟S3、根據所述第一級結構鄰居和第二級結構鄰居的某一功能的分布情況,評估該功能在所述待查詢蛋白質中出現的第一可能性;并根據所有的同源序列對應該功能的分布情況評估該功能在所述待查詢蛋白質中出現的第二可能性;所述第一可能性的計算公式為:
其中,Pi為待查詢蛋白質與第i個第一級結構鄰居Si間的結構距離,如果Si具有功能fa,為1,否則為0,w為權值,Ns為第一級結構鄰居的數目;Nseq為同源序列的數目,Ei為與同源序列與所述待查詢蛋白質的序列相似度,Pij為第i個同源序列與第j個第二級結構鄰居Sij間的結構距離,為第二級結構鄰居的數目;同理,如果Sij具有功能fa,為1,否則為0;
步驟S4、建立通過PSSM矩陣預測該功能的SVM預測模型,并將所述待查詢蛋白質的PSSM矩陣輸入所述SVM預測模型得出該功能在所述待查詢蛋白質中出現的第三可能性;
步驟S5、根據所述待查詢蛋白質對應的查詢基因及該查詢基因的共表達基因,計算其它物種中對應的直系同源間的基因共表達分數,并根據所述基因共表達分數將其它物種中對應該功能的分布情況轉換成目標物種中該功能在所述待查詢蛋白質中出現的第四可能性;
步驟S6、融合所述第一、第二、第三及第四可能性以評估該功能在所述待查詢蛋白質中出現的綜合可能性。
2.根據權利要求1所述的蛋白質功能標注方法,其特征在于,所述第二可能性的計算公式為:
其中Ek為同源序列Hk的序列對比得分值,b為常量log(10),n是同源序列的個數,如果Hk具有功能Ti,則Indk(Ti)為1,否則為0。
3.根據權利要求1所述的蛋白質功能標注方法,其特征在于,所述步驟S4包括使用自協方差變換方法的自變量AC將PSSM矩陣轉化成固定長度的特征,自變量的計算公式為:
其中,Xi,j為第i個氨基酸的第j個特征的值,X(i+lg),j為第i+lg個氨基酸的第j個特征的值;j表示一個描述符,j=1,2,…,D,其中D是描述符的個數;i表示序列中的位置;L為氨基酸序列的長度,lg為lg的最大值,且lg=1,2,…,LG,每個序列AC變量的總數為LG*D,基于AC特征,對于每一個功能fa,運用支持向量機方法,訓練一個預測模型進行功能預測。
4.根據權利要求1所述的蛋白質功能標注方法,其特征在于,所述步驟S5計算基因共表達分數包括:
COXS(Q,Pi)=1-(1-C(Q,Pi))*(1-w*OSi)
其中Q是查詢基因,Pi是Q的共表達基因,C是兩個基因表達的皮爾遜相關系數,w是直系同源基因表達的權值,OSi是Q和Pi在物種j中對應的的直系同源之間(Qoj,Pioj)的共表達分數,n是物種的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611128108.4/1.html,轉載請聲明來源鉆瓜專利網。





