[發(fā)明專利]基于深度度量學(xué)習(xí)的蛋白質(zhì)折疊識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010948824.7 | 申請(qǐng)日: | 2020-09-10 |
| 公開(kāi)(公告)號(hào): | CN112116950B | 公開(kāi)(公告)日: | 2022-08-12 |
| 發(fā)明(設(shè)計(jì))人: | 於東軍;劉巖 | 申請(qǐng)(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號(hào): | G16B15/20 | 分類號(hào): | G16B15/20;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210094 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 度量 學(xué)習(xí) 蛋白質(zhì) 折疊 識(shí)別 方法 | ||
本發(fā)明公開(kāi)了一種基于深度度量學(xué)習(xí)的蛋白質(zhì)折疊識(shí)別方法包括:對(duì)蛋白質(zhì)進(jìn)行編碼,得到蛋白質(zhì)序列的數(shù)字表達(dá);將蛋白質(zhì)序列的數(shù)字表達(dá)輸入到SSA模型,獲得蛋白質(zhì)殘基?殘基潛在的關(guān)系圖,并將關(guān)系圖固定為設(shè)定大小;將關(guān)系圖輸入到訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中,獲取分類層前一層的輸出作為深度特征;將深度特征輸入到訓(xùn)練好的孿生網(wǎng)絡(luò)中得到最終的蛋白質(zhì)特征;基于蛋白質(zhì)特征計(jì)算查詢蛋白與模板蛋白之間的歐式距離,將與查詢蛋白質(zhì)距離最近的模板蛋白質(zhì)的折疊類型分配給查詢蛋白質(zhì)。本發(fā)明使用孿生網(wǎng)絡(luò),使得相同折疊類型的蛋白對(duì)之間的距離更近,不同折疊的蛋白質(zhì)對(duì)之間的距離更遠(yuǎn)。
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息學(xué)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)領(lǐng)域,具體為一種基于深度度量學(xué)習(xí)的蛋白質(zhì)折疊識(shí)別方法。
背景技術(shù)
隨著基因工程的不斷推進(jìn),人類已知的蛋白質(zhì)序列信息呈指數(shù)級(jí)增長(zhǎng),但是對(duì)于蛋白質(zhì)的生物特性與結(jié)構(gòu),卻知之甚少。這是因?yàn)榧词箤?duì)單個(gè)蛋白質(zhì)而言,了解其功能與三維結(jié)構(gòu)也是一項(xiàng)艱巨的任務(wù)。所以要理解所有這些序列,最好的方法就是通過(guò)搜索數(shù)據(jù)庫(kù),將它們與其他已知功能與結(jié)構(gòu)的蛋白質(zhì)聯(lián)系起來(lái),提高這種算法仍然是當(dāng)今生物信息學(xué)領(lǐng)域重大的挑戰(zhàn)之一。蛋白質(zhì)折疊識(shí)別的核模板匹配思想就是基于此,它的目標(biāo)是對(duì)一個(gè)新的蛋白質(zhì)(已知序列),通過(guò)相似度比對(duì),與查詢蛋白最相似的模板蛋白在蛋白質(zhì)的折疊方式上與查詢蛋白越相似。此外還有把蛋白質(zhì)折疊識(shí)別看成一個(gè)分類問(wèn)題,對(duì)于一個(gè)查詢蛋白,直接把查詢蛋白分類到最大可能的折疊類型。
上面兩種思想的關(guān)鍵在于從蛋白質(zhì)序列中抽取強(qiáng)大的蛋白質(zhì)特征表示。Fletez-Brant等人(Fletez-Brant,Christopher,et al.kmer-SVM:a web server foridentifying predictive regulatory sequence features in genomic data sets.Nucleic acids research 41.W1(2013):W544-W556.)提出了一種通過(guò)計(jì)算連續(xù)鄰近殘基的頻率來(lái)提取特征的方法,這種方法有效地從蛋白質(zhì)序列中捕捉了局部鑒別信息。Shen和Chou(Shen,Hong-Bin,andKuo-Chen Chou.Ensemble classifier forproteinfoldpattern recognition.Bioinformatics 22.14(2006):1717-1722.)利用偽氨基酸(PseAAC)方法將序列信息、疏水性信息和親水性信息結(jié)合在一起,以區(qū)分不同的蛋白質(zhì)特征。Dong(Dong,Qiwen,Shuigeng Zhou,and Jihong Guan.A new taxonomy-basedproteinfold recognition approach based on autocross-covariance transformation.Bioinformatics 25.20(2009):2655-2662.)等人結(jié)合自協(xié)方差變換和PSSM提取進(jìn)化信息去提高蛋白質(zhì)的折疊識(shí)別率。
最近幾年深度學(xué)習(xí)方法給計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理,語(yǔ)言識(shí)別等研究領(lǐng)域帶來(lái)了巨大的革命。比如Hou等人(Hou,Jie,Badri Adhikari,and Jianlin Cheng.DeepSF:deep convolutional neural network for mapping protein sequences to folds.Bioinformatics 34.8(2018):1295-1303.)使用1D的卷積神經(jīng)網(wǎng)絡(luò)直接把蛋白質(zhì)序列分類到已知的1195種折疊中。Liu等人(Liu,Bin,Chen-Chen Li,and Ke Yan.DeepSVM-fold:protein fold recognitionby combining support vector machines and pairwisesequence similarity scores generatedby deep learning networks.Briefings inBioinformatics(2019).)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)從PSSM矩陣中提取進(jìn)化信息從而提高蛋白質(zhì)折疊識(shí)別率。但是這些方法存在以下幾個(gè)問(wèn)題:如何有效地度量?jī)蓚€(gè)蛋白質(zhì)之間的距離,以及如何更進(jìn)一步的加強(qiáng)蛋白質(zhì)特征的鑒別性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010948824.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





