[發明專利]基于機器學習的海藻固碳蛋白預測方法及系統有效
| 申請號: | 202011189909.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112309495B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 高瑞;張甘;劉治平 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B40/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 董雪 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 海藻 蛋白 預測 方法 系統 | ||
1.一種基于機器學習的海藻固碳蛋白預測方法,其特征在于,包括:
獲取海洋藻類蛋白質序列數據,對所述數據預處理并進行特征提取;
對提取的特征進行篩選后,輸入到訓練好的機器學習分類器;
輸出海藻固碳蛋白的預測結果;
對于預處理后的數據進行特征提取,具體包括:
分別使用從官能團、香農熵、基于自相關方法的理化性質和基于序列組成中提取的特征來對蛋白質序列數據進行數值描述,將蛋白質序列數據被轉換成數字特征向量;
所述基于序列組成提取特征為采用2mer方法進行特征提取;
對提取的特征進行篩選,具體為:
首先對2mer中的400維特征向量進行特征排序,選取前20維向量,20維向量分別為WT、WK、HY、HG、YF、MR、YR、YW、FD、KL、EF、IH、WR、YS、DI、FG、EC、DN、GF、FH,然后同官能團、香農熵、基于自相關方法的理化性質提取的特征共59維向量,再次進行特征重要程度排序;篩選對固碳蛋白分類區別力高的特征,去除無關冗余特征,最終選取最優特征子集,使用重要性排名前29維的特征;
其中,基于氨基酸的字母表,WT、WK、HY、HG、YF、MR、YR、YW、FD、KL、EF、IH、WR、YS、DI、FG、EC、DN、GF、FH分別為20種特征重要度排名靠前的二肽。
2.如權利要求1所述的一種基于機器學習的海藻固碳蛋白預測方法,其特征在于,分別對不同的機器學習分類器進行訓練,包括:樸素貝葉斯、支持向量機、神經網絡、K近鄰和隨機森林;選取分類效果的最好的分類器作為最終的分類器。
3.如權利要求1所述的一種基于機器學習的海藻固碳蛋白預測方法,其特征在于,對于機器學習分類器進行訓練的過程包括:
選取不同種類海洋藻類蛋白質序列數據構建數據集;
對所述數據集進行預處理,將處理后的數據集分為訓練集和測試集;
對訓練集中的數據進行特征提取,根據特征的重要程度篩選出N個特征作為最優特征;
將最優特征在不同的機器學習分類器上進行交叉驗證,得到每種機器學習分類器的評價指標;
選取評價指標最優的分類器作為最終的分類器。
4.如權利要求3所述的一種基于機器學習的海藻固碳蛋白預測方法,其特征在于,對所述數據集進行預處理,包括:
清洗蛋白質fasta序列數據,去除質量不高、含有未知氨基酸的序列,使用cd-hit軟件去除冗余避免同源偏置;
進行不平衡數據處理,使用ClusterCentroids函數實現欠采樣,使用
5.如權利要求3所述的一種基于機器學習的海藻固碳蛋白預測方法,其特征在于,用K折交叉驗證來檢查預測變量的預期準確性,使用靈敏度,特異性,準確性和Mathew相關系數以及均衡準確率評估預測系統的性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011189909.8/1.html,轉載請聲明來源鉆瓜專利網。





