[發(fā)明專(zhuān)利]抗原肽呈遞預(yù)測(cè)模型的構(gòu)建方法、抗原肽預(yù)測(cè)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202210170086.7 | 申請(qǐng)日: | 2022-02-24 |
| 公開(kāi)(公告)號(hào): | CN114242159B | 公開(kāi)(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計(jì))人: | 王天元;翟珂 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京晶泰科技有限公司 |
| 主分類(lèi)號(hào): | G16B5/00 | 分類(lèi)號(hào): | G16B5/00;G16B35/00;G16B40/00 |
| 代理公司: | 北京匯鑫君達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11769 | 代理人: | 劉湘菲 |
| 地址: | 100083 北京市海淀區(qū)中*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抗原 呈遞 預(yù)測(cè) 模型 構(gòu)建 方法 裝置 | ||
1.一種抗原肽呈遞預(yù)測(cè)模型的構(gòu)建方法,其特征在于,包括:
獲取預(yù)選種類(lèi)的目標(biāo)HLA及與所述目標(biāo)HLA對(duì)應(yīng)的具有預(yù)設(shè)比例的正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù),其中,針對(duì)每種目標(biāo)HLA,將正樣本數(shù)據(jù)與負(fù)樣本數(shù)據(jù)按照1:(8~10)生成訓(xùn)練數(shù)據(jù),及將正樣本數(shù)據(jù)與負(fù)樣本數(shù)據(jù)按照1:(800~1000)生成測(cè)試數(shù)據(jù);將所述訓(xùn)練數(shù)據(jù)按照K折交叉驗(yàn)證劃分獲得訓(xùn)練集和驗(yàn)證集;和將所述訓(xùn)練數(shù)據(jù)按照K折交叉驗(yàn)證劃分獲得訓(xùn)練集和驗(yàn)證集,并將預(yù)設(shè)數(shù)量的偽標(biāo)簽數(shù)據(jù)加入所述訓(xùn)練集;其中,所述偽標(biāo)簽數(shù)據(jù)由空白標(biāo)簽的所述測(cè)試數(shù)據(jù)根據(jù)預(yù)先訓(xùn)練的子模型預(yù)測(cè)獲得對(duì)應(yīng)的偽標(biāo)簽后形成;所述正樣本數(shù)據(jù)包括正樣本多肽序列、正樣本多肽序列的上游序列、正樣本多肽序列的下游序列、及正樣本多肽序列與目標(biāo)HLA的正呈遞結(jié)果;所述負(fù)樣本數(shù)據(jù)包括與所述正樣本多肽序列不同的負(fù)樣本多肽序列、負(fù)樣本多肽序列的上游序列、負(fù)樣本多肽序列的下游序列、及負(fù)樣本多肽序列與所述目標(biāo)HLA的負(fù)呈遞結(jié)果;
將所述目標(biāo)HLA及相應(yīng)的所述正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別輸入多種基于BERT模型的不同架構(gòu)的子模型進(jìn)行訓(xùn)練,獲得多個(gè)訓(xùn)練好的所述子模型;
通過(guò)預(yù)設(shè)規(guī)則對(duì)各所述訓(xùn)練好的子模型進(jìn)行篩選,獲得包括優(yōu)選子模型的預(yù)測(cè)模型;其中,所述預(yù)測(cè)模型綜合所述優(yōu)選子模型的預(yù)測(cè)呈遞結(jié)果預(yù)測(cè)目標(biāo)抗原肽被所述目標(biāo)HLA呈遞的結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)HLA及相應(yīng)的所述正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別輸入多種基于BERT模型的不同架構(gòu)的子模型進(jìn)行訓(xùn)練,獲得多個(gè)訓(xùn)練好的所述子模型,包括:
將所述正樣本數(shù)據(jù)中的正樣本多肽序列及正呈遞結(jié)果、和所述負(fù)樣本數(shù)據(jù)中的負(fù)樣本多肽序列及負(fù)呈遞結(jié)果作為訓(xùn)練數(shù)據(jù)對(duì)至少部分基于BERT模型的不同架構(gòu)的子模型進(jìn)行訓(xùn)練,獲得對(duì)應(yīng)的訓(xùn)練好的所述子模型;和/或
將所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對(duì)至少部分基于BERT模型的不同架構(gòu)的子模型進(jìn)行訓(xùn)練,獲得對(duì)應(yīng)的訓(xùn)練好的所述子模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多種基于BERT模型的不同架構(gòu)的子模型,包括以下至少之一:
BERT與CNN融合模型、BERT與LSTM融合模型、BERT與LSTM及GRU融合模型、含雙層句向量隱藏層的BERT模型、含三層句向量隱藏層的BERT模型、含全局平均池化層的BERT模型、含詞向量批標(biāo)準(zhǔn)化的BERT模型、及標(biāo)準(zhǔn)BERT模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)預(yù)設(shè)規(guī)則對(duì)各所述訓(xùn)練好的子模型進(jìn)行篩選,獲得包括優(yōu)選子模型的預(yù)測(cè)模型,包括:
分別獲取各所述子模型的預(yù)測(cè)呈遞結(jié)果的精確率和召回率;
根據(jù)所述精確率和召回率,通過(guò)預(yù)設(shè)評(píng)估函數(shù)確定各所述子模型的準(zhǔn)確性評(píng)估分?jǐn)?shù);
根據(jù)對(duì)應(yīng)的所述準(zhǔn)確性評(píng)估分?jǐn)?shù),在所述子模型中篩選獲得優(yōu)選子模型。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述分別獲取各所述子模型的預(yù)測(cè)呈遞結(jié)果的精確率和召回率,包括:
分別統(tǒng)計(jì)每個(gè)子模型的預(yù)測(cè)呈遞結(jié)果中的TP、FP、FN的個(gè)數(shù);
根據(jù)對(duì)應(yīng)的TP、FP及FN的個(gè)數(shù),確定對(duì)應(yīng)的各所述子模型的精確率和召回率。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取預(yù)選種類(lèi)的目標(biāo)HLA及與所述目標(biāo)HLA對(duì)應(yīng)的具有預(yù)設(shè)比例的正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)之前,包括:
獲得被候選HLA結(jié)合和呈遞的多肽序列,并根據(jù)序列相似度對(duì)獲得的被所述候選HLA結(jié)合和呈遞的多肽序列進(jìn)行聚類(lèi)處理,獲得多種候選HLA和對(duì)應(yīng)的正樣本多肽序列集;
在各所述候選HLA中篩選獲得多種所述目標(biāo)HLA,并將所述候選HLA對(duì)應(yīng)的所述正樣本多肽序列集作為所述目標(biāo)HLA的正樣本數(shù)據(jù)。
7.一種抗原肽預(yù)測(cè)方法,其特征在于,包括:
獲取目標(biāo)抗原肽序列;
根據(jù)權(quán)利要求1至6中任一項(xiàng)構(gòu)建所述的預(yù)測(cè)模型,預(yù)測(cè)所述目標(biāo)抗原肽序列被所述預(yù)測(cè)模型中的目標(biāo)HLA呈遞的結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京晶泰科技有限公司,未經(jīng)北京晶泰科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210170086.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類(lèi)預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





