[發(fā)明專利]一種基于深度學(xué)習(xí)的RNA和蛋白質(zhì)結(jié)合位點(diǎn)的識別方法有效
| 申請?zhí)枺?/td> | 202110597078.6 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113178229B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計(jì))人: | 朱曉冬;李澤晉;劉元寧 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G06N3/04 |
| 代理公司: | 長春市恒譽(yù)專利代理事務(wù)所(普通合伙) 22212 | 代理人: | 鞠傳龍 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) rna 蛋白質(zhì) 結(jié)合 識別 方法 | ||
1.一種基于深度學(xué)習(xí)的RNA和蛋白質(zhì)結(jié)合位點(diǎn)的識別方法,其特征在于:其方法包括如下步驟:
識別方法分為兩部分:數(shù)據(jù)處理和模型設(shè)計(jì)訓(xùn)練,各部分主要步驟如下:
第一步、數(shù)據(jù)處理:
使用CLIPdb中的數(shù)據(jù)作為數(shù)據(jù)集,該數(shù)據(jù)集由19中RBP的31個實(shí)驗(yàn)組成,對于每個實(shí)驗(yàn)中的數(shù)據(jù),源自CLIP-seq的相互作用位點(diǎn)簇內(nèi)的RNA的所有核苷酸均被視為結(jié)合位點(diǎn),該數(shù)據(jù)集中的原始數(shù)據(jù)是fasta格式的RNA序列文件,具體步驟如下:
步驟1、原始數(shù)據(jù)去冗余:數(shù)據(jù)處理時,首先使用CD-HIT軟件對數(shù)據(jù)進(jìn)行去冗余;
步驟2、預(yù)測原始數(shù)據(jù)中RNA序列對應(yīng)的二級結(jié)構(gòu)信息:通過RNAfold模型預(yù)測RNA序列的二級結(jié)構(gòu)信息;
步驟3、對步驟2中獲得的二級結(jié)構(gòu)進(jìn)行編碼:使用bpRNA模型將二級結(jié)構(gòu)信息轉(zhuǎn)化為二級結(jié)構(gòu)注釋;
步驟4、將所有數(shù)據(jù)信息匯總后進(jìn)行篩選,清除掉數(shù)據(jù)集中的不合法數(shù)據(jù),將原訓(xùn)練中的數(shù)據(jù)按照4:1的比例拆分為訓(xùn)練集和驗(yàn)證集,原測試集依然作為測試集,將所有數(shù)據(jù)保存在對應(yīng)的csv文件中作為輸入數(shù)據(jù);
第二步、模型設(shè)計(jì)及訓(xùn)練:
模型中包括三種網(wǎng)絡(luò)模型,即卷積神經(jīng)網(wǎng)絡(luò)、transformer網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)用于提取數(shù)據(jù)特征,兩個一維卷積神經(jīng)網(wǎng)絡(luò)同時對RNA數(shù)據(jù)的序列和結(jié)構(gòu)特征進(jìn)行提取,transformer用于捕捉序列間的上下文之間的依賴,全連接層神經(jīng)網(wǎng)絡(luò)根據(jù)組合特征進(jìn)行分類預(yù)測,具體步驟如下:
步驟1、由于數(shù)據(jù)序列和結(jié)構(gòu)信息都是文本類數(shù)據(jù),計(jì)算機(jī)無法識別,需要對其進(jìn)行一位有效編碼,編碼為數(shù)據(jù)矩陣作為模型輸入;
步驟2、將編碼后的序列矩陣和二級結(jié)構(gòu)矩陣輸入到對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)中提取對應(yīng)的特征矩陣,兩個特征矩陣維度相同;
步驟3、transformer的位置編碼抽取序列的時序特征,時序特征與卷積神經(jīng)網(wǎng)絡(luò)編碼提取的特征矩陣維度相同,三者相加作為組合特征,將組合特征輸入到編碼器中;
步驟4、使用八個相同的編碼器堆疊而成,每個編碼器都包括兩個子層,第一個子層是注意力機(jī)制層,該層利用八個平行的注意力層同時開始計(jì)算,使用一個殘差連接和LayerNormalization相連接,第二個子層是完全連接層,這一層主要就是兩層線性映射和一個激活函數(shù),再連接一個殘差連接和Layer Normalization,經(jīng)過八層編碼器的輸出就是最終編碼器編碼的結(jié)果;
步驟5、將編碼之后的結(jié)果輸入到完全連接層進(jìn)行最終的分類,通過完全連接層得到分類結(jié)果的概率值,經(jīng)過sigmoid函數(shù)得到最終類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110597078.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 用于治療RNA依賴性RNA病毒感染的核苷氨基磷酸芳基酯
- 人黑色素瘤細(xì)胞相關(guān)的長非編碼RNA的RNA干擾靶點(diǎn)RNA及用途
- 無DNA殘留的RNA提取試劑盒及RNA提取方法
- 一種用于非疾病診斷目的的定量檢測內(nèi)源環(huán)狀RNA的方法
- 一種監(jiān)控總RNA中線狀RNA消除的方法
- 一種利用常規(guī)試劑提取RNA的方法
- 基于雙分子熒光互補(bǔ)的新型信使RNA和環(huán)狀RNA標(biāo)記方法
- 一種通用快速DNA產(chǎn)品中RNA殘留定量方法
- 一種去除高豐度RNA的測序文庫及其構(gòu)建方法
- 一種G4型歐亞類禽H1N1豬流感病毒滅活疫苗的制備





