[發明專利]一種分泌入支氣管肺泡灌洗液蛋白質預測方法在審
| 申請號: | 202010337266.0 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111554348A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 邵丹;黃嵐;王巖;何凱 | 申請(專利權)人: | 長春大學;吉林大學 |
| 主分類號: | G16B25/00 | 分類號: | G16B25/00;G16B40/00 |
| 代理公司: | 長春市吉利專利事務所(普通合伙) 22206 | 代理人: | 李曉莉 |
| 地址: | 130022 *** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分泌 支氣管 肺泡 灌洗 蛋白質 預測 方法 | ||
一種分泌入支氣管肺泡灌洗液蛋白質預測方法,屬于人工智能檢測技術領域,將現有文獻和數據庫的支氣管肺泡灌洗液中已經被生物實驗驗證的蛋白質列表作為模型訓練的樣本,以蛋白質序列作為模型輸入,利用RNN和LSTM構建運算模型,對入支氣管肺泡灌洗液蛋白進行預測。本發明通過可計算的方法實現支氣管肺泡灌洗液中的蛋白質預測,并通過預測的蛋白質,找到疾病相關蛋白進行病理分析,促進疾病的早期診斷。
技術領域
本發明屬于人工智能檢測技術領域,特別是涉及到一種分泌入支氣管肺泡灌洗液蛋白質預測方法。
背景技術
支氣管肺泡灌洗液是應用纖維支氣管鏡對支氣管以下肺段和亞肺段進行灌洗后,采集肺泡表面襯液來獲得。臨床用于診斷多種肺部疾病,如肺泡炎、肺纖維化、石棉肺、肺癌、肺囊蟲病、肺泡蛋白沉積癥等的臨床診斷、鑒別診斷以及研究肺部疾病的病因、發病機制、評價療效和預后等。
通過對支氣管肺泡灌洗液中蛋白質標志物進行分析,達到肺部疾病進行早期診斷。但是目前,公知的關于可計算的方法預測支氣管肺泡灌洗液蛋白質仍為空白。
因此現有技術當中亟需要一種新型的技術方案來解決這一問題。
發明內容
本發明所要解決的技術問題是:提供一種分泌入支氣管肺泡灌洗液蛋白質預測方法,解決了目前公知的關于可計算的方法預測支氣管肺泡灌洗液蛋白質仍為空白的技術問題。
一種分泌入支氣管肺泡灌洗液蛋白質預測方法,其特征是:包括以下步驟,且以下步驟順次進行,
步驟一、將支氣管肺泡灌洗液中被生物實驗驗證的蛋白質作為模型訓練的正樣本,并存儲正樣本蛋白質信息數據;
步驟二、在Pfam蛋白質家族信息數據庫中刪除所述步驟一的正樣本對應的蛋白質家族信息,在剩余的蛋白質家族信息數據庫中提取家族中蛋白質數量超過5個的蛋白質家族,選取其中5個蛋白質信息作為模型訓練負樣本,并存儲負樣本的蛋白質信息數據;
步驟三、采用隨機欠采樣方法,對正樣本和負樣本數量進行均衡,獲得均衡的正負樣本;
步驟四、將正樣本和負樣本的蛋白質信息數據按照80%訓練集、10%驗證集、10%測試集隨機進行分割;
步驟五、利用位置相關的迭代BLAST計算樣本中蛋白的序列位置特異權重矩陣PSSM;
步驟六、通過卷積神經網絡RNN結合長短期記憶LSTM建立分類器模型,所述分類器模型的輸入為所述步驟五中獲得的特異權重矩陣PSSM,分類器模型的輸出為入腦脊髓蛋白質或非入腦脊髓蛋白質;
步驟七、所述步驟四中的訓練集采用激活函數和交叉熵的損失函數擬合分類器模型,獲得訓練后的分類器模型;
步驟八、將所述步驟四驗證集中正樣本和負樣本的蛋白質信息以及步驟五中獲得的特異權重矩陣PSSM輸入步驟六訓練后的分類器模型進行驗證,獲得驗證后的分類器模型;輸出的驗證結果采用敏感性Sensitivity、特異性Specificity、查準率accuracy、準確率Precision、馬修斯相關性系數MCC及ROC曲線下面的面積AUC,作為評價模型驗證效果的評估指標;
步驟九、采用所述步驟四中的測試集對所述步驟八中驗證后的分類器模型進行分類準確性驗證,分類準確性小于90%,重復所述步驟六和步驟七至分類準確性達到90%以上,分類器模型建立完成;
步驟十、向所述步驟九中建立完成的分類器模型中輸入獨立的驗證集蛋白序列,通過輸出的預測結果實現分泌入支氣管肺泡灌洗液蛋白質預測方法。
所述步驟六中的卷積神經網絡RNN與長短期記憶LSTM結合建立分類器模型的方法為,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長春大學;吉林大學,未經長春大學;吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010337266.0/2.html,轉載請聲明來源鉆瓜專利網。





