[發明專利]一種alpha跨膜蛋白二級與拓撲結構預測方法及系統在審
| 申請號: | 202110332960.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113012752A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 林關寧;劉喆;王晗 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B30/10;G16B40/00;G16B50/00 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 衛素丹;胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 alpha 膜蛋白 二級 拓撲 結構 預測 方法 系統 | ||
1.一種alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,包括以下步驟:
S1:構建用于二維結構和拓撲結構預測的深度學習模型,具體包括:
S11:從跨膜蛋白數據庫中獲取大量的alpha跨膜蛋白序列作為搭建用于預測二級結構和拓撲結構的深度學習模型的數據集,并制作二級結構標簽和拓撲結構標簽;
S12:采用獨熱編碼和HHblits屬性作為輸入模型的特征進行特征編碼,并對所述獨熱編碼和所述HHblits屬性的末尾添加列進行補齊,以適應長度一固定長度的滑窗;
S13:針對于所述alpha跨膜蛋白序列中的每一個殘基,經過滑窗之后,得到一張特征圖,每個特征圖對應包括所述二級結構標簽和所述拓撲結構標簽在內的兩個標簽;
S2:搭建并訓練深度學習模型,其架構從輸入至輸出依次為:預處理層、分組卷積層、雙向長短期記憶網絡層、注意力層以及歸一化輸出層;
S3:將新的所述alpha跨膜蛋白序列輸入所述深度學習模型,執行數據預處理、特征編碼和預測輸出,并將預測輸出保存于對應文件中。
2.根據權利要求1所述的alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,在步驟S11中,從跨膜蛋白數據庫中獲取大量的alpha跨膜蛋白序列作為搭建用于預測二級結構和拓撲結構的深度學習模型的數據集,具體包括:
針對于從所述跨膜蛋白數據庫中獲取到的所述alpha跨膜蛋白序列,去掉包含未知氨基酸的序列,以及長度小于30個殘基的序列;
使用CD-HIT軟件,一一固定閥值對所述alpha跨膜蛋白序列進行去榮譽操作。
3.根據權利要求1所述的alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,還包括:對所述數據集進行劃分,分別形成訓練集、驗證集合獨立測試集。
4.根據權利要求1所述的alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,在步驟S11中,制作所述二級結構標簽和所述拓撲結構標簽,具體為:
將用于存儲所述alpha跨膜蛋白序列的所述數據集的PDB文件輸入DSSP軟件得到DSSP文件,并從中提取出所述二級結構標簽;
直接從所述跨膜蛋白數據庫中的XML文件中提取所述拓撲結構標簽。
5.根據權利要求1所述的alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,在步驟S12中,還包括:
所述獨熱編碼為將分類變量轉換為可提供給機器學習算法進行預測的形式的過程;并具體包括一種稀疏向量,其中一個元素設為1,所有其他元素均設為0,所述獨熱編碼的長度為20,代表某個特定氨基酸的位置被標記為1。
6.根據權利要求1所述的alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,在步驟S12中,還包括:
所述HHblits屬性為由HHblits工具輸出的長度為30維的向量,并使用對比庫進行比對,HHblits向量表示當前序列和所述對比庫中序列的相似程度和保守性。
7.根據權利要求1所述的alpha跨膜蛋白二級與拓撲結構預測方法,其特征在于,還包括:所述深度學習模型包括分組卷積層、雙向長短期記憶網絡層、注意力機制及隨機失活層、以及歸一化輸出層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110332960.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于新樓盤用電信息的企業逃稅稽查方法及系統
- 下一篇:一種取紗及搬運小車





