[發明專利]基于稀疏編碼及鏈學習預測膜蛋白beta?barrel跨膜區域的方法有效
| 申請號: | 201510012812.2 | 申請日: | 2015-01-12 |
| 公開(公告)號: | CN104615911B | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 沈紅斌;殷曦 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 上海交達專利事務所31201 | 代理人: | 王毓理,王錫麟 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 稀疏 編碼 學習 預測 膜蛋白 beta barrel 區域 方法 | ||
技術領域
本發明涉及的是一種膜蛋白結構預測及計算智能領域的技術,具體是一種基于稀疏編碼及鏈學習預測膜蛋白beta‐barrel跨膜區域的方法。
背景技術
目前,隨著蛋白質組數據庫的快速發展,已知結構的蛋白質數量不斷增長,這對研究蛋白質的功能起到重要的推動作用。膜蛋白鑲嵌在生物膜中貫穿于磷脂雙分子層,具有較強的疏水性及不宜結晶的特點,實驗的方法解決蛋白質結構不僅成本昂貴而且耗費時間,因此,利用計算的方法預測蛋白質結構是一種行之有效的途徑,預測精度也在不斷提升,但傳統機器學習方法在研究蛋白質預測領域還存在一些亟待解決的問題,比如特征選擇和提取,降維去噪等方面。
在PDB(protein data bank,蛋白質數據庫)中,跨膜蛋白中的Beta‐barrel(β‐筒狀蛋白)作為兩種膜蛋白之一,由若干條beta‐strand(β折疊股)按照反相平行的方式圍成中空的桶狀結構,具有鮮明的結構特點。beta‐barrel占膜蛋白總數的30%,在生物膜運輸通道、分子交換、免疫保護等功能中起著至關重要的作用。當前近70%的藥物靶點作用在膜蛋白上,因此解決跨膜蛋白Beta‐barrel的結構對研究蛋白質功能提供重要信息,因為結構相似的蛋白質往往功能也相似。
由于膜蛋白Beta‐barrel結構復雜,有較強的疏水性,難以結晶,由生物實驗獲取蛋白質已知結構的Beta‐barrel數據樣本較少。隨著機器學習算法的日漸成熟,利用計算的方法獲取蛋白質結構迅速發展,而且有著速度快,效率高,成本低的優勢。目前,獲取蛋白質結構的方法有基于統計信息和基于膜蛋白物理化學特性的方法Freeman,T.and Wimley,W.(2010)A highly accurate statistical approach for the prediction of transmembrane beta‐barrels.Bioinformatics,此類基于統計信息和基于膜蛋白物理化學特性的方法,僅局限適用于少量結構簡單的蛋白質類型,如beta‐strand數目較少的膜蛋白結構,隨著機器學習的方法迅速發展,如基于隱馬爾可夫模型的方法Singh,N.et al.(2011)Tmbhmm:a frequency profile based HMM for predicting the topology of transmembrane beta barrel proteins and the exposure status of transmembrane residues.Biochim.Biophys.Acta BBA Proteins Proteomics,1814,664–670,預測精度有所提高,但是對于特殊長度如較短的strands片段,存在假陽性率過高的現象,而且在提取特征過程中包含系統噪聲的影響以及諸多降低預測精度的因素有待解決。
發明內容
本發明針對現有技術存在的上述不足,提出一種基于稀疏編碼及鏈學習預測膜蛋白beta‐barrel跨膜區域的方法,實現稀疏編碼技術和鏈學習方法在蛋白質結構預測中的應用。這種運用機器學習的方法實現蛋白質結構預測只需在計算機上運行,具有時間短,成本低,精度高,可靠性強等優點,與此同時,相對于實驗解決蛋白質結構的方法,如X射線,核磁共振等方法,這種計算的方法操作更加方便,數據提取更加便捷,可以提供可視化預測結果,同時對分析蛋白質功能提供重要數據信息。此外,本方法還可以隨著蛋白質數據庫的發展不斷進行軟件升級,擴大數據集,增加預測蛋白質超家族覆蓋范圍,使之具備更強的預測魯棒性和穩定性。
本發明是通過以下技術方案實現的:
本發明從已知結構的膜蛋白Beta‐barrel組織數據集中選擇出包含進化信息的位置特異性打分矩陣以及代表氨基酸距離信息的Z坐標值作為特征,以歸一化處理和滑動窗口的方式從中提取出特征向量并轉換為數字圖像,經特征空間維數降低和噪聲干擾去除后用于機器學習方法訓練模型,最后將訓練好的預測模型采用鏈學習的方式對目標蛋白質中的每個氨基酸位置進行預測,得到此序列中每個氨基酸相對與膜的位置。
所述的已知結構的膜蛋白Beta‐barrel組織數據集來自最新版本蛋白質數據庫(Protein Data Bank,PDB),為去除同源性氨基酸序列的影響,將蛋白質去冗余至30%,得到最終用來訓練模型的去除冗余性的數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510012812.2/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





