[發(fā)明專利]用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210406078.8 | 申請(qǐng)日: | 2022-04-18 |
| 公開(kāi)(公告)號(hào): | CN114724630A | 公開(kāi)(公告)日: | 2022-07-08 |
| 發(fā)明(設(shè)計(jì))人: | 許晶晶;黃自鑫;郭磊;董繼揚(yáng) | 申請(qǐng)(專利權(quán))人: | 廈門大學(xué) |
| 主分類號(hào): | G16B20/30 | 分類號(hào): | G16B20/30;G06N3/04;G06N3/08;G06N20/20 |
| 代理公司: | 廈門南強(qiáng)之路專利事務(wù)所(普通合伙) 35200 | 代理人: | 馬應(yīng)森 |
| 地址: | 361005 福建*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 預(yù)測(cè) 蛋白質(zhì) 翻譯 修飾 深度 學(xué)習(xí)方法 | ||
1.用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法,其特征在于包括以下步驟:
1)蛋白質(zhì)序列數(shù)據(jù)集的構(gòu)建:從公開(kāi)的數(shù)據(jù)庫(kù)中收集帶有翻譯后修飾位點(diǎn)PTM的蛋白質(zhì)序列,刪除冗余的蛋白質(zhì)序列,得到不同PTM位點(diǎn)類型的蛋白質(zhì)序列數(shù)據(jù)集;
2)蛋白質(zhì)序列的編碼:通過(guò)補(bǔ)零或剪切的方式歸一化蛋白質(zhì)序列的長(zhǎng)度,并對(duì)蛋白質(zhì)序列進(jìn)行one-hot編碼;
3)PTM位點(diǎn)預(yù)測(cè)模型的構(gòu)建:利用基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建PTM位點(diǎn)的預(yù)測(cè)模型,設(shè)計(jì)并行的特征提取模塊分別提取蛋白質(zhì)序列的短程和長(zhǎng)程的耦合信息;
4)PTM位點(diǎn)預(yù)測(cè)模型的訓(xùn)練:根據(jù)PTM位點(diǎn)的類型,利用蛋白質(zhì)序列數(shù)據(jù)集分別訓(xùn)練預(yù)測(cè)模型;
5)在線交互系統(tǒng)的實(shí)現(xiàn):將訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型部署于服務(wù)器上,實(shí)現(xiàn)在線預(yù)測(cè)和結(jié)果可視化,并將預(yù)測(cè)結(jié)果輸出。
2.如權(quán)利要示1所述用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法,其特征在于步驟1)中,所述蛋白質(zhì)序列數(shù)據(jù)集的構(gòu)建,具體包括以下步驟:
(1)從公開(kāi)的數(shù)據(jù)庫(kù)中收集并整理有PTM位點(diǎn)的蛋白質(zhì)序列,獲取PTM位點(diǎn)的位置,整理成為初始數(shù)據(jù)集;所述公開(kāi)的數(shù)據(jù)庫(kù)包括SwissProt、dbPTM、phosphoELM、PhosphoSitePLUS等PTM位點(diǎn)數(shù)據(jù)庫(kù);
(2)使用蛋白質(zhì)序列聚類工具CD-HIT從初始數(shù)據(jù)集中去除冗余的蛋白質(zhì)序列;
(3)對(duì)去冗余的蛋白質(zhì)序列進(jìn)行數(shù)據(jù)清洗,刪除可信度低的位點(diǎn)注釋信息,得到干凈的蛋白質(zhì)序列數(shù)據(jù)集。
3.如權(quán)利要示1所述用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法,其特征在于在步驟2)中,所述蛋白質(zhì)序列的編碼,具體包括以下步驟:
(1)將長(zhǎng)序列進(jìn)行截?cái)嗖僮?,短序列進(jìn)行零填充,使蛋白質(zhì)序列具有相同的長(zhǎng)度;
(2)對(duì)統(tǒng)一長(zhǎng)度的蛋白質(zhì)序列進(jìn)行one-hot編碼,轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的向量。
4.如權(quán)利要示1所述用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法,其特征在于在步驟3)中,所述PTM位點(diǎn)預(yù)測(cè)模型的構(gòu)建,具體步驟為:構(gòu)建一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的模型,模型包含短程耦合特征提取模塊和長(zhǎng)程耦合信息處理模塊,分別用于提取蛋白質(zhì)序列的短程和全局耦合信息;短程耦合特征提取模塊,依次包含有1個(gè)卷積神經(jīng)網(wǎng)絡(luò)CNN,2個(gè)擠壓與激勵(lì)網(wǎng)絡(luò)SENet,1個(gè)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)Bi-LSTM和2個(gè)全連接層FC。
5.如權(quán)利要示1所述用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法,其特征在于在步驟4)中,所述PTM位點(diǎn)預(yù)測(cè)模型的訓(xùn)練,具體步驟包括:
(1)由于PTM位點(diǎn)的正負(fù)樣本通常是不平衡的,故將訓(xùn)練數(shù)據(jù)集隨機(jī)分為N個(gè)訓(xùn)練子集,樣本量不足的訓(xùn)練子集采用重采樣方法補(bǔ)齊,得到N個(gè)平衡的訓(xùn)練子集;
(2)用N個(gè)訓(xùn)練子集分別對(duì)模型進(jìn)行訓(xùn)練,再對(duì)訓(xùn)練結(jié)果進(jìn)行集成學(xué)習(xí)得到預(yù)測(cè)模型。
6.如權(quán)利要示1所述用于預(yù)測(cè)蛋白質(zhì)翻譯后修飾位點(diǎn)的深度學(xué)習(xí)方法,其特征在于在步驟5)中,所述在線交互系統(tǒng)的實(shí)現(xiàn),具體步驟包括:
(1)利用Python和JavaScript語(yǔ)言編程實(shí)現(xiàn)在線的PTM位點(diǎn)預(yù)測(cè)模型;
(2)設(shè)計(jì)在線模型的輸入輸出模塊;
(3)用戶通過(guò)系統(tǒng)提交蛋白質(zhì)序列文件,選擇待預(yù)測(cè)的PTM類型,系統(tǒng)將預(yù)測(cè)結(jié)果通過(guò)Http和郵件的方式返回給用戶;所述預(yù)測(cè)結(jié)果包括蛋白質(zhì)序列的信息、位點(diǎn)位置、PTM位點(diǎn)種類等信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學(xué),未經(jīng)廈門大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210406078.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種構(gòu)建多語(yǔ)言網(wǎng)站實(shí)時(shí)翻譯的方法
- 一種待翻譯軟件的翻譯方法及裝置
- 一種待翻譯軟件的翻譯方法及裝置
- 一種CAT系統(tǒng)中翻譯記憶庫(kù)和MT結(jié)合的方法及系統(tǒng)
- 翻譯方法、系統(tǒng)、終端以及存儲(chǔ)介質(zhì)
- 一種文本展示方法及裝置
- 機(jī)器翻譯方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 翻譯系統(tǒng)、翻譯方法、翻譯機(jī)及存儲(chǔ)介質(zhì)
- 文字翻譯方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





