[發明專利]基于條件隨機場的固有無序蛋白質的識別方法在審
| 申請號: | 201810834590.6 | 申請日: | 2018-07-26 |
| 公開(公告)號: | CN109147870A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 劉濱;劉羽朦 | 申請(專利權)人: | 劉濱 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B5/00;G16B50/00 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 位點 蛋白質 基于條件 生物序列 依賴關系 機場 標簽 條件隨機場算法 二級結構信息 氨基酸組成 蛋白質識別 分類算法 結合條件 預測模型 預測性能 傳統的 溶劑 進化 預測 | ||
1.一種基于條件隨機場的固有無序蛋白質的識別方法,其特征在于:所述方法包括以下步驟:S1、構建條件隨機場模型的特征,所述特征包括轉移特征和狀態特征;狀態特征的構建首先要利用滑動窗口技術將蛋白質序列切割為一系列的子序列,然后對每個目標氨基酸構建其狀態特征,即窗口內的進化信息特征和氨基酸組成特征、以及目標氨基酸的二級結構特征和相對溶劑可及性特征;S2、采用能夠處理數值型特征的條件隨機場軟件,訓練模型;在訓練的過程中,首先要構建一定比例的正負樣本集,構建的方法為隨機去掉負樣本,采用的平衡比例為正樣本:負樣本=1:2;S3、對訓練集執行步驟S1以輸入到條件隨機場模型中,訓練模型參數;S4、對測試集執行步驟S1后輸入到條件隨機場模型中,得到識別結果。
2.根據權利要求1所述的方法,其特征在于:假設氨基酸的標簽集合為L={有序,無序},則轉移特征如下式所示:
其中yi-1和yi是蛋白質序列中位置在i-1和i的氨基酸的標簽,y和y′屬于L。
3.根據權利要求1所述的方法,其特征在于:所述方法基于MobiDB數據庫和DisProt數據庫構建數據集,并基于此數據集構建預測模型。
4.根據權利要求1所述的方法,其特征在于:窗口內的進化信息的構建過程為:首先利用PSI-BLAST搜索大規模的蛋白質數據庫得到蛋白質的位置特異性打分矩陣PSSM,PSI-BLAST的參數E-value和迭代次數分別設為0.001和3,其他參數為默認;然后對PSSM矩陣進行歸一化,其公式如下:
其中x代表PSSM矩陣中的每個元素的值;最后將每個目標氨基酸窗口內的所有氨基酸的PSSM信息連接起來,得到目標氨基酸的進化信息特征。
5.根據權利要求1所述的方法,其特征在于:窗口內的氨基酸組成特征是指窗口內連續k個氨基酸出現的頻率特征。
6.根據權利要求1所述的方法,其特征在于:目標氨基酸的二級結構特征是利用基于序列譜信息的PSIPRED軟件對目標氨基酸的三種結構進行預測,包括螺旋、折疊和無規卷曲;但是當一條蛋白質序列在搜索數據庫之后沒有得到PSSM矩陣,那么就采用僅基于蛋白質序列的PSIPRED。
7.根據權利要求1所述的方法,其特征在于:目標氨基酸的相對溶劑可及性特征是利用Sable軟件預測得到的,其SA_ACTION和SA_OUT參數分別設置為SVR和RELATIVE,其他參數為默認參數。
8.根據權利要求1所述的方法,其特征在于:所述方法還適應于DNA、RNA和Protein位點進行預測的生物問題,如蛋白質結合位點的預測、蛋白質二級結構的預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉濱,未經劉濱許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810834590.6/1.html,轉載請聲明來源鉆瓜專利網。





