[發(fā)明專利]一種基于多尺度卷積注意力神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110153044.8 | 申請(qǐng)日: | 2021-02-04 |
| 公開(kāi)(公告)號(hào): | CN112767997B | 公開(kāi)(公告)日: | 2023-04-25 |
| 發(fā)明(設(shè)計(jì))人: | 成金勇;徐穎;劉毅慧;馬玉明 | 申請(qǐng)(專利權(quán))人: | 齊魯工業(yè)大學(xué) |
| 主分類號(hào): | G16B15/00 | 分類號(hào): | G16B15/00;G16B40/20;G06F18/2415;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 劉淑風(fēng) |
| 地址: | 250353 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 尺度 卷積 注意力 神經(jīng)網(wǎng)絡(luò) 蛋白質(zhì) 二級(jí) 結(jié)構(gòu) 預(yù)測(cè) 方法 | ||
本發(fā)明提供一種基于多尺度卷積注意力神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,屬于生物信息學(xué)與模式識(shí)別領(lǐng)域。本發(fā)明采用多尺度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行自適應(yīng)學(xué)習(xí),通過(guò)設(shè)置窗口大小來(lái)提取粒度不同的結(jié)構(gòu)特征,從而識(shí)別更多的全局和局部特征信息。同時(shí),在該方法中引入注意力卷積機(jī)制,使其更加有效地識(shí)別結(jié)構(gòu)序列中信息表征量大的部分。由于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的分類方法使用的損失函數(shù)為交叉熵,交叉熵并不能有效解決訓(xùn)練序列中的樣本非均衡性問(wèn)題,而蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)問(wèn)題屬于像素級(jí)分類,樣本的非均衡性問(wèn)題在其中體現(xiàn)得十分突出,本方法在構(gòu)建模型的基礎(chǔ)上提出一種改進(jìn)的相關(guān)交叉熵?fù)p失函數(shù)來(lái)解決該問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息學(xué)與模式識(shí)別領(lǐng)域,具體涉及一種基于多尺度卷積注意力神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法。
背景技術(shù)
蛋白質(zhì)作為生命活動(dòng)的主要承擔(dān)者,不僅為生命活動(dòng)提供物質(zhì)基礎(chǔ),還為疾病理論的攻克提供理論基礎(chǔ)。在蛋白質(zhì)中,85%的氨基酸殘基處于α-螺旋、β-折疊和無(wú)規(guī)卷曲三種基本的二級(jí)結(jié)構(gòu)狀態(tài),除此以外還有一小部分是β-轉(zhuǎn)角。由此可見(jiàn),蛋白質(zhì)二級(jí)結(jié)構(gòu)的組成具有很強(qiáng)的規(guī)律性,并且各種二級(jí)結(jié)構(gòu)在蛋白質(zhì)中的分布是非均勻的。如果二級(jí)結(jié)構(gòu)能夠被準(zhǔn)確預(yù)測(cè),這些信息對(duì)蛋白無(wú)序預(yù)測(cè)、蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)都是非常有用的。蛋白質(zhì)二級(jí)結(jié)構(gòu)也有助于識(shí)別蛋白質(zhì)功能域,可以指導(dǎo)位點(diǎn)特異性突變實(shí)驗(yàn)的合理設(shè)計(jì),可見(jiàn)蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)對(duì)于研究蛋白質(zhì)結(jié)構(gòu)和功能具有重要意義。
隨著人工智能的發(fā)展,許多機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方法已廣泛用于預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu),例如Wang等人提出的DEEPCNF預(yù)測(cè)方法,將位置特定評(píng)分矩陣(PSSM)與條件神經(jīng)場(chǎng)(CNF)相結(jié)合,在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方面取得了較大突破。2018年,Ma等人在傳統(tǒng)的隨機(jī)子空間方法上提出了基于數(shù)據(jù)分區(qū)和半隨機(jī)子空間(PSRSM)的方法,PSRSM方法使蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的Q3準(zhǔn)確率提高到了85.89%,有效的保證了基礎(chǔ)分類器的準(zhǔn)確性。隨著深度學(xué)習(xí)的快速發(fā)展,Heffernan等人從氨基酸序列位置距離間的非局部相互作用考慮,采用長(zhǎng)短期記憶(LSTM)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNNs)技術(shù)來(lái)捕捉預(yù)測(cè)蛋白質(zhì)殘基類型,并開(kāi)發(fā)了一個(gè)名為SPIDER3的工具,實(shí)現(xiàn)了84%的Q3預(yù)測(cè)精度。2018年,F(xiàn)ang等人從氨基酸之間的局部和全局相互作用考慮,提出了Deep3I深度神經(jīng)網(wǎng)絡(luò),并開(kāi)發(fā)為MUFOLD-SS工具,使蛋白質(zhì)預(yù)測(cè)的準(zhǔn)確率達(dá)85%。2020年,Cheng等人將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)期短時(shí)記憶(LSTM)相結(jié)合,使25pdb數(shù)據(jù)的Q3準(zhǔn)確率提高到80.18%。Zhao等人采用對(duì)抗性網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)模型,模擬氨基酸殘基之間的強(qiáng)相關(guān)性和長(zhǎng)程作用,并取得了較好的預(yù)測(cè)效果。
雖然以上提出的模型在蛋白質(zhì)的二級(jí)結(jié)構(gòu)問(wèn)題上達(dá)到了相對(duì)較好的預(yù)測(cè)結(jié)果,但仍然存在一些問(wèn)題。如網(wǎng)絡(luò)結(jié)構(gòu)不能有效捕捉到同一蛋白質(zhì)序列之間的長(zhǎng)期依賴關(guān)系,不能充分提取氨基酸的殘基序列信息。其次,蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的難點(diǎn)在于不同區(qū)域結(jié)構(gòu)過(guò)于相似,無(wú)法提取蛋白質(zhì)序列的有效信息或抑制無(wú)效信息,難以辨別蛋白質(zhì)的結(jié)構(gòu)。
基于對(duì)以上問(wèn)題的思考,開(kāi)發(fā)一種新的預(yù)測(cè)方法來(lái)解決蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)問(wèn)題具有十分重要的意義。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種基于多尺度卷積注意力神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,以更準(zhǔn)確地對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)識(shí)別。使用這種蛋白質(zhì)二級(jí)結(jié)構(gòu)數(shù)據(jù)自動(dòng)分類方法在蛋白質(zhì)奧林匹克競(jìng)賽所提供的CASP9,CASP10,CASP11,CASP12數(shù)據(jù)集上取得優(yōu)良的性能。針對(duì)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)不能充分提取氨基酸的殘基序列信息特征,無(wú)法提取蛋白質(zhì)序列的有效信息或抑制無(wú)效信息,導(dǎo)致識(shí)別分類準(zhǔn)確性不足,主要以下幾個(gè)方面做出改進(jìn):
1、針對(duì)不能充分提取氨基酸的殘基序列信息和結(jié)構(gòu)信息,設(shè)計(jì)了一種多尺度多通道的卷積網(wǎng)絡(luò)。各通道采用不同大小的卷積核來(lái)提取不同粒度的全局與局部特征信息,同時(shí)有效保留特征信息間的序列關(guān)系。
2、為了更好地結(jié)合信息間的序列關(guān)系,反映出不同位置的重要性。使用空間和通道間的卷積注意力機(jī)制,使網(wǎng)絡(luò)能夠更關(guān)注于序列結(jié)構(gòu)中重要的特征,獲取更好的預(yù)測(cè)準(zhǔn)確度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于齊魯工業(yè)大學(xué),未經(jīng)齊魯工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110153044.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





