[發明專利]一種基于距離分布估計的蛋白質預測方法有效
| 申請號: | 201810986059.0 | 申請日: | 2018-08-28 |
| 公開(公告)號: | CN109378034B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 張貴軍;王小奇;馬來發;周曉根;胡俊 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G16B15/20 | 分類號: | G16B15/20;G16B40/00;G06N3/12 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 距離 分布 估計 蛋白質 預測 方法 | ||
一種基于距離分布估計的蛋白質預測方法,首先,基于過程的構象解知識以及統計學習來預測距離分布,并將其用來指導構象搜索;其次,在遺傳算法的基本框架下,對每個目標個體完成基于片段組裝的變異,并根據距離分布的知識和能量函數對目標個體和變異個體分別進行評價,選出適應度較高的個體進入下一代種群。本發明提出一種預測精度高、計算代價低的基于距離分布估計的蛋白質預測方法。
技術領域
本發明涉及一種生物學信息學、智能優化、計算機應用領域,尤其涉及的是一種基于距離分布估計的蛋白質預測方法。
背景技術
蛋白質是由氨基酸脫水縮合形成的生物大分子,它參與生物體內的絕大多數化學反應,對人類的健康起著決定性作用。準確掌握蛋白質的結構和功能對疾病研究和生物制藥都有重要意義。在計算生物學領域,通過計算機手段根據氨基酸序列預測蛋白質三維結構。這類方法不僅可以利用計算機的并行算法減少三維結構的預測時間,而且預測過程簡單成本低廉,因此這類方法相比于實驗方法更能得到廣泛應用。由于蛋白質結構本身的復雜性,到目前為止蛋白質三維結構的預測仍是一個有待進一步解決的難題。
從頭預測方法直接基于蛋白質物理或知識能量模型,利用優化算法在構象空間搜索全局最低能量構象解,但是由于能量函數不精確,導致數學上的最優解并不一定對應于目標蛋白的天然態結構,從而阻礙了高性能算法在蛋白質結構從頭預測領域中的應用。因此,分子動力學模擬、蒙特卡羅算法以及進化算法等方法雖然在解決一些小蛋白方面取得了顯著的成果,但隨著序列的增長,則這些方法采樣效率低,預測精度低。最新研究表明,利用殘基與殘基間的距離信息不僅可以預測構蛋白質三維結構骨架,還可以作為挑選蛋白質候選結構的評分項。因此,預測殘基對的距離就成為了進一步提高蛋白質三維結構預測精度一個非常重要手段。可是目前基于機器學習的殘基對距離預測方法使用的大多都是傳統機器學習模型,這些模型往往不能很好的建模蛋白質序列。如何提高殘基間的距離的預測,并利用殘基間的距離信息引導蛋白質構象的搜索,是生物信息領域中的關鍵。
因此,現有的蛋白質結構預測方法在預測精度和采樣效率方面存在著缺陷,需要改進。
發明內容
為了克服現有的蛋白質結構預測中能量函數不精確、預測精度較低的不足,本發明提出一種采樣效率高、預測精度高的基于距離分布估計的蛋白質預測方法。
本發明解決其技術問題所采用的技術方案是:
一種基于距離分布估計的蛋白質預測方法,所述方法包括以下步驟:
1)給定輸入序列信息;
2)能量函數E(x)采用Rosetta的打分函數score3;
3)參數初始化:設置種群規模Psize,學習階段迭代次數G1,搜索階段最大的迭代次數Gmax,連續拒絕數Cmax,窗口長度l,距離間隔為r,參數t,結構相似度閾值Rcut,初始溫度常數KT;
4)基于過程的構象知識構建距離分布,過程如下:
4.1)啟動Psize條軌跡,每條軌跡采樣G1次;在采樣中對每個個體進行片段組裝,并利用Monte Carlo機制判斷是否接收該片段的插入,記錄接收的總次數Num,并且將每一次接收后的構象保存到構象集 X={xi|i∈N+且i<Num};
4.2)對構象集X中所有的構象進行聚類選出潛在的構象,操作如下:
4.2.1)在當前構象集X中,選出能量最低的構象x,x∈X,將x從X中移到構象集X′;
4.2.2)依次計算構象集X中的每一個構象xi與x基于Cα原子的均方根偏差R;如果R≤Rcut,則將xi從X中移到構象集X′;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810986059.0/2.html,轉載請聲明來源鉆瓜專利網。





