[發明專利]基于機器學習的海藻固碳蛋白預測方法及系統有效
| 申請號: | 202011189909.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112309495B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 高瑞;張甘;劉治平 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B40/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 董雪 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 海藻 蛋白 預測 方法 系統 | ||
本發明公開了一種基于機器學習的海藻固碳蛋白預測方法及系統,包括:獲取海洋藻類蛋白質序列數據,對所述數據進行特征提取;對提取的特征進行篩選后,輸入到訓練好的機器學習分類器;輸出海藻固碳蛋白的預測結果。本發明采用機器學習算法來預測蛋白質是否具有固碳功能,相比于基于傳統的生物化學實驗來對大量的生物序列進行分析的方式,能夠有效節省人力物力,避免引入人為誤差對結果或造成干擾,具有更高的預測效率和準確率。
技術領域
本發明涉及海藻固碳蛋白預測技術領域,尤其涉及一種基于機器學習的海藻固碳蛋白預測方法及系統。
背景技術
本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
固碳蛋白在藻類的固碳過程中起著關鍵作用。準確快速鑒定藻類固碳蛋白對研究藻類固碳機制、建立海洋生物碳泵具有重要意義。基于生物序列可很好地分析研究生物的結構和功能,目前在海藻固碳蛋白領域的相關研究多是由傳統的生化實驗方法進行的,該種方法耗時較長,需投入大量人力物力、時間成本,且易引入人為誤差。
發明內容
為了解決上述問題,本發明提出了一種基于機器學習的海藻固碳蛋白預測方法及系統,將機器學習算法用于藻類固碳蛋白的分類預測,能夠預測蛋白質是否具有固碳功能,可以提高預測效率和準確率。
在一些實施方式中,采用如下技術方案:
一種基于機器學習的海藻固碳蛋白預測方法,包括:
獲取海洋藻類蛋白質序列數據,對所述數據進行特征提取;
對提取的特征進行篩選后,輸入到訓練好的機器學習分類器;
輸出海藻固碳蛋白的預測結果。
進一步地,對于預處理后的數據進行特征提取,具體包括:
分別使用從官能團、香農熵、基于自相關方法的理化性質和基于序列組成中提取的特征來對蛋白質序列數據進行數值描述,將蛋白質序列數據被轉換成數字特征向量。
進一步地,對提取的特征進行篩選,具體包括:
計算特征的重要程度,按照特征的重要性進行排序,選擇排名前N的特征作為最優特征。
進一步地,分別對不同的機器學習分類器進行訓練,包括:樸素貝葉斯、支持向量機、神經網絡、K近鄰和隨機森林;選取分類效果的最好的分類器作為最終的分類器。
進一步地,對于機器學習分類器進行訓練的過程包括:
選取不同種類海洋藻類蛋白質序列數據構建數據集;
對所述數據集進行預處理,將處理后的數據集分為訓練集和測試集;
對訓練集中的數據進行特征提取,根據特征的重要程度篩選出N個特征作為最優特征;
將最優特征在不同的機器學習分類器上進行交叉驗證,得到每種機器學習分類器的評價指標;
選取評價指標最優的分類器作為最終的分類器。
進一步地,對所述數據集進行預處理,包括:
清洗蛋白質fasta序列數據,去除質量不高、含有未知氨基酸的序列,使用cd-hit軟件去除冗余避免同源偏置;
進行不平衡數據處理,使用ClusterCentroids函數實現欠采樣,使用k-means算法的中心點來進行合成新樣本。
進一步地,用K折交叉驗證來檢查預測變量的預期準確性,使用靈敏度,特異性,準確性和Mathew相關系數以及均衡準確率評估預測系統的性能。
在另一些實施方式中,采用如下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011189909.8/2.html,轉載請聲明來源鉆瓜專利網。





