[發明專利]用于識別細胞外基質蛋白的集成學習方法有效
| 申請號: | 201410588610.8 | 申請日: | 2014-10-28 |
| 公開(公告)號: | CN104331642A | 公開(公告)日: | 2015-02-04 |
| 發明(設計)人: | 張承進;楊潤濤;高瑞;張麗娜 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24;G06F19/18 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 細胞 基質 蛋白 集成 學習方法 | ||
技術領域
本發明涉及蛋白質功能屬性識別領域,具體為一種用于識別細胞外基質蛋白的集成學習方法。
背景技術
細胞外基質(Extracellular?Matrix,ECM)是細胞和組織賴以生存的微環境,在細胞行為和組織特性的調控中發揮重要作用。ECM強大的生物學功能歸因于ECM蛋白的多樣性。ECM蛋白的組成和動態變化對細胞的增殖、分化、遷移,組織的形態發生、分化等生命現象具有全方位的影響。同時,ECM蛋白的功能紊亂可導致眾多疾病。蛋白聚糖和膠原是ECM蛋白的主要組成成分。其中,蛋白聚糖調控組織修復、腫瘤生長、細胞粘附、增殖和遷移等生理活動;膠原蛋白廣泛應用于骨組織工程,并調節細胞粘附、遷移,指導組織發育。ECM蛋白質的準確識別將有助于理解上述生物過程的潛在機制,并為基于ECM蛋白的生物材料設計和藥物開發提供重要的線索。
近二十多年來,生命科學快速發展的最重要特征是生物學數據量的劇增。如何處理、分析和解釋這些生物學數據成為眾多學者關注的問題。其中,生物大分子序列的功能屬性識別問題已成為生物信息學領域的重要研究課題,由于實驗測定方法昂貴而且周期長,模式識別方法已成為主流方法。近年來,研究人員嘗試應用機器學習方法識別細胞外基質蛋白。2010年,Juan?J等建立了ECM蛋白的預測系統ECMPP,此方法引入了5種新特征,包括分子量、序列長度、重復殘基、重復結構域、重復三聯體glycine-x-y(Jung?J,Ryu?T,Hwang?Y,Lee?E,Lee?D.(2010)Prediction?of?extracellular?matrix?proteins?based?on?distinctive?sequence?and?domain?characteristics.Journal?of?computational?Biology?17:97-105)。2013年,Kandaswamy?KK等開發了預測ECM蛋白的網絡服務器ECMPRED,該方法所提取的特征來自于蛋白質序列中官能團的頻率和氨基酸的物理化學性質(Kandaswamy?KK,Pugalenthi?G,Kalies?KU,Hartmann?E,Martinetz?T.(2013)EcmPred:prediction?of?extracellular?matrix?proteins?based?on?random?forest?with?maximum?relevance?minimum?redundancy?feature?selection.Journal?of?Theoretical?Biology317:377-383)。然而,對蛋白質功能屬性預測非常重要的序列順序信息和結構信息,上述兩種方法均未考慮。而且,現有方法也沒有解決數據集不平衡的問題(ECM蛋白的樣本個數遠遠小于非ECM蛋白的樣本個數),導致絕大多數樣本被預測為非ECM蛋白,極大地限制了分類器的性能。
發明內容
為解決現有技術存在的不足,本發明公開了用于識別細胞外基質蛋白的集成學習方法,目的在于解決數據集的不平衡問題,同時綜合多種序列特征信息,以平衡和提高細胞外基質蛋白正負樣本的預測精度。
為實現上述目的,本發明的具體方案如下:
用于識別細胞外基質蛋白的集成學習方法,包括以下步驟:
步驟一:數據集建立:建立細胞外基質ECM蛋白序列的訓練樣本集和獨立測試樣本集;
步驟二:基于序列組成、物理化學屬性、進化信息及結構信息,將訓練樣本集中的蛋白質序列映射成數值特征向量;
步驟三:為降低計算復雜度和減少特征的冗余性,采用信息增益率—增量特征選擇方法挑選出相對有效的特征子集,以提高評估訓練樣本集的預測性能;
步驟四:采用集成學習的方法建立集成分類器模型,以解決數據集不平衡的問題;
步驟五:將獨立測試樣本集按步驟二的方法映射成數值特征向量,基于集成分類器模型的預測結果,采用多數表決方法得到測試樣本的類別,最終利用所有獨立測試樣本的預測結果評價預測系統的性能;
步驟六:利用用于細胞外基質蛋白識別的網絡服務器系統,進行在線識別細胞外基質蛋白。
所述步驟一中訓練樣本集含有410個后生動物ECM蛋白和4464個后生動物非ECM蛋白;獨立測試樣本集則包括85個人類ECM蛋白和130個人類非ECM蛋白。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410588610.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





