[發明專利]一種蛋白質冷凍電鏡結構解析模型訓練方法和解析方法有效
| 申請號: | 202010018788.4 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111210869B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 楊躍東;陳晟;李雄俊;盧宇彤 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B15/00 | 分類號: | G16B15/00;G16B20/00;G06N3/0464;G06N3/08 |
| 代理公司: | 廣州潤禾知識產權代理事務所(普通合伙) 44446 | 代理人: | 歐秋望 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 蛋白質 冷凍 結構 解析 模型 訓練 方法 | ||
本發明涉及一種蛋白質冷凍電鏡結構解析模型訓練方法和解析方法,訓練方法包括:以蛋白質電子云密度圖像中像素密度高于預設密度值的像素點為中心,按預設大小框選出子圖像,并將子圖像根據其中心是否為Csubgt;α/subgt;位點分為正樣本和負樣本;根據正樣本和負樣本對卷積神經網絡模型進行訓練,訓練出Csubgt;α/subgt;位點預測模型;根據正樣本對卷積神經網絡模型進行訓練,訓練出二級結構預測模型和氨基酸類型預測模型。通過訓練好的三種模型預測蛋白質冷凍電鏡圖像中的Csubgt;α/subgt;位點、每個Csubgt;α/subgt;位點的二級結構和氨基酸類型,并將這些Csubgt;α/subgt;位點與已知的蛋白質序列位點一一配對,本發明可以高效、準確地解析蛋白質冷凍電鏡圖像并建立該蛋白質主鏈結構的模型。
技術領域
本發明涉及生物信息技術領域,更具體地,涉及一種蛋白質冷凍電鏡結構解析模型訓練方法和解析方法。
背景技術
冷凍電子顯微鏡技術,是在低溫下對樣品使用透射電子顯微鏡進行觀察的顯微技術。在生物大分子可視化領域,相比于廣泛應用的X射線晶體衍射技術以及核磁共振技術,冷凍電鏡技術不需要大量樣品也無需分子結晶抑或同位素富集。因此冷凍電鏡技術受到廣泛關注且飛速發展,近年來越來越多的冷凍電鏡圖像被存放到EMDB(Electron?MicroscopyData?Bank,電子顯微鏡數據庫)中,圖像的分辨率也不斷提升。
冷凍電鏡技術的重大進展也催生了對電鏡圖像結構解釋技術的迫切需求,其中包含了對蛋白質冷凍電鏡圖像進行主鏈建模的技術。對于一張蛋白質電子云密度圖像,已知該蛋白質的氨基酸序列,主鏈建模技術可以通過建模得到序列上的每個氨基酸的Cα原子在圖像中的對應位置,該技術的評估指標為真實位置與建模得到的預測位置的距離的平均值,即RMSD(均方誤差),另外,由于即便知道圖像中有哪些像素點是Cα原子的所在位點,只要不知道其在氨基酸序列中的排列順序,不經優化的搜索算法的時間復雜度為O(N!),其中N為蛋白質序列長度,所以算法的耗時也是算法的評價指標之一。
傳統的主鏈建模技術一般分為基于同源結構的建模和重頭建模兩種。基于同源結構的建模需要有已知的同源蛋白,而重頭建模則不需要。重頭建模的傳統方法則主要有路徑游走(Pathwalking)技術以及羅塞塔(Rosetta)軟件等。其中,路徑游走技術將電鏡圖像的像素密集點視為圖論節點,通過求解旅行商人問題構建蛋白質的Cα模型,但是該技術需要人工干預來手動分配約束并確定Cα模型上蛋白質序列的方向。而羅塞塔軟件則通過組裝從蛋白質結構數據庫中提取的片段結構來構建初始模型,然后進行全原子優化以更好地擬合冷凍電鏡圖像,羅塞塔軟件的建模準確率同樣受到人工調整參數的影響,且其模板結構數量眾多,同樣耗時耗力,為一個蛋白質進行建模往往要耗時上百個小時之久。
除傳統的主鏈建模技術之外,近年出現了基于機器學習和深度學習以及圖搜索算法的重頭建模方法。例如基于均值漂移聚類算法(Mean?Shift)以及禁忌搜索算法(TabuSearch)的MAINMAST重頭建模方法,以及基于三維物體識別(3D?Object?Detection)和蒙特卡洛樹搜索算法(Monte?Carlo?Tree?Search)的A2-Net方法,它們可以實現超過Rosetta以及Pathwalking算法的主鏈建模性能,其中,A2-Net方法的建模效率比傳統的Rosetta方法提高了數個數量級,但是它們的建模準確率相比傳統的技術雖有所提高但仍然比較有限,算法的時間復雜度也相當高,其中時間復雜度較低的A2-Net方法完成一個蛋白的建模也往往需要10分鐘左右,耗時較長。
發明內容
本發明旨在克服上述現有技術的至少一種缺陷(不足),提供一種蛋白質冷凍電鏡結構解析模型訓練方法和解析方法,用于高效、準確地預測出蛋白質電子云密度圖像中的蛋白質主鏈模型。
本發明采取的技術方案是:
一種蛋白質冷凍電鏡結構解析模型訓練方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010018788.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板及其制備方法
- 下一篇:量子阱可調諧短腔激光器





