[發明專利]一種分泌入支氣管肺泡灌洗液蛋白質預測方法在審
| 申請號: | 202010337266.0 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111554348A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 邵丹;黃嵐;王巖;何凱 | 申請(專利權)人: | 長春大學;吉林大學 |
| 主分類號: | G16B25/00 | 分類號: | G16B25/00;G16B40/00 |
| 代理公司: | 長春市吉利專利事務所(普通合伙) 22206 | 代理人: | 李曉莉 |
| 地址: | 130022 *** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分泌 支氣管 肺泡 灌洗 蛋白質 預測 方法 | ||
1.一種分泌入支氣管肺泡灌洗液蛋白質預測方法,其特征是:包括以下步驟,且以下步驟順次進行,
步驟一、將支氣管肺泡灌洗液中被生物實驗驗證的蛋白質作為模型訓練的正樣本,并存儲正樣本蛋白質信息數據;
步驟二、在Pfam蛋白質家族信息數據庫中刪除所述步驟一的正樣本對應的蛋白質家族信息,在剩余的蛋白質家族信息數據庫中提取家族中蛋白質數量超過5個的蛋白質家族,選取其中5個蛋白質信息作為模型訓練負樣本,并存儲負樣本的蛋白質信息數據;
步驟三、采用隨機欠采樣方法,對正樣本和負樣本數量進行均衡,獲得均衡的正負樣本;
步驟四、將正樣本和負樣本的蛋白質信息數據按照80%訓練集、10%驗證集、10%測試集隨機進行分割;
步驟五、利用位置相關的迭代BLAST計算樣本中蛋白的序列位置特異權重矩陣PSSM;
步驟六、通過卷積神經網絡RNN結合長短期記憶LSTM建立分類器模型,所述分類器模型的輸入為所述步驟五中獲得的特異權重矩陣PSSM,分類器模型的輸出為入腦脊髓蛋白質或非入腦脊髓蛋白質;
步驟七、所述步驟四中的訓練集采用激活函數和交叉熵的損失函數擬合分類器模型,獲得訓練后的分類器模型;
步驟八、將所述步驟四驗證集中正樣本和負樣本的蛋白質信息以及步驟五中獲得的特異權重矩陣PSSM輸入步驟六訓練后的分類器模型進行驗證,獲得驗證后的分類器模型;輸出的驗證結果采用敏感性Sensitivity、特異性Specificity、查準率accuracy、準確率Precision、馬修斯相關性系數MCC及ROC曲線下面的面積AUC,作為評價模型驗證效果的評估指標;
步驟九、采用所述步驟四中的測試集對所述步驟八中驗證后的分類器模型進行分類準確性驗證,分類準確性小于90%,重復所述步驟六和步驟七至分類準確性達到90%以上,分類器模型建立完成;
步驟十、向所述步驟九中建立完成的分類器模型中輸入獨立的驗證集蛋白序列,通過輸出的預測結果實現分泌入支氣管肺泡灌洗液蛋白質預測方法。
2.根據權利要求1所述的一種分泌入支氣管肺泡灌洗液蛋白質預測方法,其特征是:所述步驟六中的卷積神經網絡RNN與長短期記憶LSTM結合建立分類器模型的方法為,
其中Y(t)為t時刻當前層的輸出值,φ為激活函數,X(t)為當前層的輸出值,Wx為當前輸入值的權重,Y(t-1)為上一時刻當前層的輸出,Wy為上一時刻輸出值的權重,b為當前層的偏置項,W為由Wx和Wy合并組成的矩陣;
長短期記憶LSTM采用雙向長短期記憶LSTM。
3.根據權利要求1所述的一種分泌入支氣管肺泡灌洗液蛋白質預測方法,其特征是:所述步驟七中激活函數包括Tanh和Sigmoid,其模型分別為,
其中z為神經元的權重和,e為自然常數;
所述步驟七中的交叉熵的損失函數模型L為,
其中yi表示第i個樣本的真實類別,表示第i個樣本的預測類別,log為對數函數,m為樣本的個數。
4.根據權利要求1所述的一種分泌入支氣管肺泡灌洗液蛋白質預測方法,其特征是:所述步驟八驗證后的分類器模型輸出的驗證結果采用敏感性Sensitivity、特異性Specificity、查準率accuracy、準確率Precision、馬修斯相關性系數MCC及ROC曲線下面的面積AUC,作為評價模型驗證效果的評估指標。
5.根據權利要求4所述的一種分泌入支氣管肺泡灌洗液蛋白質預測方法,其特征是:所述分類器模型輸出的驗證結果中
敏感性Sensitivity的模型為,
特異性Specificity的模型為,
準確率Precision的模型為,
查準率accuracy的模型為,
馬修斯相關性系數MCC的模型為,
其中,TP為真陽性樣本數量,TN為真陰性樣本數量,FP為假陽性樣本數量,FN為假陰性樣本數量,N為所有訓練樣本數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長春大學;吉林大學,未經長春大學;吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010337266.0/1.html,轉載請聲明來源鉆瓜專利網。





