[發(fā)明專利]一種基于深度學習的RNA和蛋白質(zhì)結合位點的識別方法有效
| 申請?zhí)枺?/td> | 202110597078.6 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113178229B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設計)人: | 朱曉冬;李澤晉;劉元寧 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G06N3/04 |
| 代理公司: | 長春市恒譽專利代理事務所(普通合伙) 22212 | 代理人: | 鞠傳龍 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 rna 蛋白質(zhì) 結合 識別 方法 | ||
本發(fā)明公開了一種基于深度學習的RNA和蛋白質(zhì)結合位點的識別方法,其方法為:識別方法分為兩部分:數(shù)據(jù)處理和模型設計訓練,各部分主要步驟如下:第一步、數(shù)據(jù)處理:步驟1、原始數(shù)據(jù)去冗余;步驟2、預測二級結構信息;步驟3、對步驟2中獲得的二級結構進行編碼;步驟4、將所有數(shù)據(jù)保存在對應的csv文件中作為輸入數(shù)據(jù);第二步、模型設計及訓練:步驟1、編碼為數(shù)據(jù)矩陣作為模型輸入;步驟2、兩個特征矩陣維度相同;步驟3、將組合特征輸入到編碼器中;步驟4、最終編碼器編碼的結果;步驟5、經(jīng)過sigmoid函數(shù)得到最終類別。有益效果:利用Transformer網(wǎng)絡學習序列的長依賴性和對特征進行編碼,能夠有效地預測RNA和蛋白質(zhì)的結合位點。
技術領域
本發(fā)明涉及一種RNA和蛋白質(zhì)結合位點的識別方法,特別涉及一種基于深度學習的RNA和蛋白質(zhì)結合位點的識別方法。
背景技術
RNA結合蛋白質(zhì)(RNA binding protein,RBP)是一類調(diào)控RNA代謝過程的蛋白質(zhì),它與許多重要的生物學過程密切相關,像基因的轉(zhuǎn)錄后調(diào)控和基因表達等。例如,miRNA是一類長度在21bp左右的RNA,和mRNA互相作用后,會使其停止翻譯,發(fā)揮一個轉(zhuǎn)錄后調(diào)控的作用。此外,RBP的失調(diào)還有可能導致各種疾病。RBP、FUS和TDP-43的突變與肌萎縮側索硬化癥密切相關,RBP還可以破壞糖尿病的轉(zhuǎn)錄后機制,了解RBP在糖尿病中的調(diào)控作用可以幫助設計基于RNA的糖尿病并發(fā)癥治療方法。綜合RBP與RNA的相互作用和單核苷酸多態(tài)性的信息有利于揭示疾病背后的RBP調(diào)控機制。一般來說,RNA結合蛋白相關知識為識別RNA功能提供了有價值的見解。因此,深入理解分析蛋白質(zhì)與RNA間的相互作用對于理解、調(diào)控和揭示生命活動背后的機理是不可或缺的步驟,RNA與蛋白質(zhì)相互作用的研究已經(jīng)成為重要的研究課題。
蛋白質(zhì)與RNA結合位點預測的研究一直沒有取得什么實質(zhì)性的進展,根本原因在于實驗所需的數(shù)據(jù)資源十分有限。但是近幾年來,隨著第二代測序技術的迅猛發(fā)展,蛋白質(zhì)-RNA復合物數(shù)據(jù)庫資源穩(wěn)定增長,科研人員逐步開始重視蛋白質(zhì)與RNA相互作用的研究。當前研究RNA與蛋白質(zhì)結合位點的方法主要有兩種方法,一是通過生物實驗的方式,這種方式不僅對實驗環(huán)境要求比較苛刻,而且對科研人員專業(yè)素養(yǎng)要求過高。這種方式雖然準確可靠,但需要大量的時間和精力,并且實驗過程中的諸多不可控因素也會對結果產(chǎn)生巨大影響。另外一種方式是通過生物信息學采用計算的方法,這種方法需要研究者利用已有的數(shù)據(jù)通過機器學習等方法進行建模預測,相比于前一種方法會有很多優(yōu)點,成本低廉且方便快捷,因此通過計算代替生物實驗的方式受到了科研人員的追捧。
在最近的研究中,深度學習模型被廣泛應用于基于生物序列的預測任務,包括RBP與RNA之間的相互作用的預測。基于深度學習的方法由于其在特征表示和學習能力方面的獨特優(yōu)勢,不僅有助于提高預測精度,而且有助于識別序列中對結合親和力至關重要的基序。
發(fā)明內(nèi)容
本發(fā)明的目的是添加RNA的二級結構信息作為新的數(shù)據(jù)源,為了提出新的混合神經(jīng)網(wǎng)絡模型而提供的一種基于深度學習的RNA和蛋白質(zhì)結合位點的識別方法。
本發(fā)明提供的基于深度學習的RNA和蛋白質(zhì)結合位點的識別方法,其方法包括如下步驟:
識別方法分為兩部分:數(shù)據(jù)處理和模型設計訓練,各部分主要步驟如下:
第一步、數(shù)據(jù)處理:
使用CLIPdb中的數(shù)據(jù)作為數(shù)據(jù)集,該數(shù)據(jù)集由19中RBP的31個實驗組成,對于每個實驗中的數(shù)據(jù),源自CLIP-seq的相互作用位點簇內(nèi)的RNA的所有核苷酸均被視為結合位點,該數(shù)據(jù)集中的原始數(shù)據(jù)是fasta格式的RNA序列文件,具體步驟如下:
步驟1、原始數(shù)據(jù)去冗余:數(shù)據(jù)處理時,首先使用CD-HIT軟件對數(shù)據(jù)進行去冗余;
步驟2、預測原始數(shù)據(jù)中RNA序列對應的二級結構信息:通過RNAfold模型預測RNA序列的二級結構信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經(jīng)吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110597078.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





