[發明專利]一種基于氨基酸序列的蛋白質折疊類型識別方法有效
| 申請號: | 201710259671.3 | 申請日: | 2017-04-20 |
| 公開(公告)號: | CN107423577B | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 李曉琴;景婭楠 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G16B15/20 | 分類號: | G16B15/20 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 氨基酸 序列 蛋白質 折疊 類型 識別 方法 | ||
本發明公開一種基于氨基酸序列的蛋白質折疊類型識別方法,步驟1、為α,β,α/β,α+β四類蛋白分別以家族和超家族為單位建立隱馬爾科夫模型,分別以家族和超家族為代表的折疊類型識別模型集,同時對兩個模型集分別進行擴充形成擴充家族模型集和擴充超家族模型集;步驟2、根據所述折疊類型識別模型集,進行蛋白質折疊類型自動化識別。采用本發明,能夠擴大識別的樣本覆蓋范圍并提高折疊類型識別的準確率,同時實現了折疊類型識別的自動化操作減少因人為因素造成的識別效果不佳的現象。
技術領域
本發明屬于生物信息學領域,特別是涉及一種基于氨基酸序列的蛋白質折疊類型識別方法。
背景技術
由于蛋白質本身自身的復雜性以及其生存環境的復雜性使得蛋白質的研究一直是重點也是難點。蛋白質折疊類型識別一直是生命科學領域研究的重點,是蛋白質三維結構預測的主要方法之一。
蛋白質折疊類型識別是一種依托于結構或者模型信息的方法,主要方法分為兩類:機器學習和序列-序列比對(多序列比對)。機器學習主要有人工神經網絡、隨機森林、支持向量機等方法。多序列比對方法主要是依據兩種序列模型進行識別:特殊位置分數矩陣和隱馬爾科夫模型。研究中大部分主要針對少量的折疊類型,比如Ding等提出當然27中折疊類型。且識別的準確率也不是特別高,大部分保持在70%到90%之間,超過90%則會被認為識別準確率很高蛋白質的種類是是龐大的,僅僅研究少量的折疊類型是不能滿足要求,需要擴大研究的范圍。且在識別準確率的方面也需要一定的提高。
發明內容
本發明要解決的技術問題是,提供一種基于氨基酸序列的蛋白質折疊類型識別方法,能夠提高樣本的識別范圍和識別的準確率且能對折疊類型進行自動化識別不再需要人工的參與。
為實現上述目的,本發明采用如下的技術方案:
一種基于氨基酸序列的蛋白質折疊類型識別方法包括以下步驟:
步驟1、為α,β,α/β,α+β四類蛋白分別以家族和超家族為單位建立隱馬爾科夫模型,分別以家族和超家族為代表的折疊類型識別模型集,同時對兩個模型集分別進行擴充形成擴充家族模型集和擴充超家族模型集;
步驟2、根據所述折疊類型識別模型集,進行蛋白質折疊類型自動化識別。
作為優選,步驟1包括:
第一步:確定好訓練集,判斷訓練集是否滿足條件,若滿足條件則進行第二步,若不滿足調整則對訓練集進行調整,使其滿足條件;
第二步:對滿足條件的訓練集進行多結構比對;
第三步:觀察比對是否成功,若成功則進行第四步,若失敗則對訓練集進行調整,再進行多結構比對;
第四步:提取比對結果中的序列比對信息;
第五步:根據所提取比對信息進行模型構建;
經過上述過程,一共建立了四個模型集;
其中,家族模型集:對α,β,α/β,α+β四類蛋白中晶體結構樣本數量不少于兩個的家族分別建立隱馬爾科夫模型,采用屬于一個折疊類型的家族模型共同代表該折疊類型,將所有模型組合到一起形成以家族為單位的折疊類型模型集,簡稱家族模型集,在采用該模型集進行折疊類型識別時,序列的匹配的家族模型所代表的折疊類型即是所測序列所屬的折疊類型,
超家族模型集:對α,β,α/β,α+β四類蛋白中晶體結構樣本數量不少于兩個的超家族分別建立隱馬爾科夫模型,采用屬于一個折疊類型的超家族模型共同代表該折疊類型,將所有模型組合到一起形成以超家族為單位的折疊類型模型集,簡稱超家族模型集,采在用該模型集進行折疊類型識別時,序列的匹配的超家族模型所代表的折疊類型即是所測序列所屬的折疊類型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710259671.3/2.html,轉載請聲明來源鉆瓜專利網。





