[發(fā)明專利]一種注意力機制預測lncRNA的RBP結(jié)合位點的方法在審
| 申請?zhí)枺?/td> | 202011144401.6 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112270955A | 公開(公告)日: | 2021-01-26 |
| 發(fā)明(設計)人: | 宋金淼;謝凡森;楊紫琪;段曉東;張子晨 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B40/00 |
| 代理公司: | 大連星海專利事務所有限公司 21208 | 代理人: | 楊翠翠 |
| 地址: | 116600 遼寧省大*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 注意力 機制 預測 lncrna rbp 結(jié)合 方法 | ||
1.一種注意力機制預測植物lncRNA的RBP結(jié)合位點的方法,其特征在于,包括以下步驟:
S1:建立基準數(shù)據(jù)集,數(shù)據(jù)集的參數(shù)包括正、負樣本分布、數(shù)據(jù)集大小和噪聲;基準數(shù)據(jù)集建立的過程具體包括:
S11:基準數(shù)據(jù)集由HOCNNLB生成,基準數(shù)據(jù)集包含31個RBPs結(jié)合位點數(shù)據(jù)集,來自lncRNAs上的12個蛋白質(zhì);
S12:實驗設置相同數(shù)量的正、負樣本,每個基準數(shù)據(jù)集使用80%的正/負樣本作為訓練集,其余樣本作為獨立測試集;
S2:構(gòu)建聯(lián)合處理層:結(jié)合核苷酸之間的依賴關系,采用高階編碼提取序列特征,具體步驟包括:
S21:給定一個lncRNA序列,用s=s1,s2,…,sn和n個核苷酸表示;基于高階統(tǒng)計的編碼矩陣S的數(shù)學表達式如下:
其中:其中s′表示對應的k-mer序列,s′j是s′的第j個特征;Σs′j表示的是第j個k-mer在s′中出現(xiàn)的次數(shù);ki代表第i個k-mer為4的核苷酸字串,矩陣列是轉(zhuǎn)換序列s′中k-mer為j子串的基于的是統(tǒng)計的one-hot編碼的第j行向量,其中j∈{1,2…,n+k-1};
S22:結(jié)合lncRNA序列相鄰核苷酸在較大距離處的相互關系,采用基于三階統(tǒng)計的編碼方式;lncRNA序列包含64個三核苷酸,每一個都編碼為64維one-hot載體;對于任何lncRNA序列,考慮到k個相鄰核苷酸在短距離內(nèi)的依賴性,將產(chǎn)生4k個k-mer核苷酸,并且每個k-mer核苷酸將被映射到一個4k維的高維空間;
S3:利用注意力機制構(gòu)膠囊神經(jīng)網(wǎng)絡,具體步驟包括:
S31:膠囊層在訓練過程中加入動態(tài)路由算法來調(diào)整膠囊參數(shù),主要分為下膠囊層、動態(tài)路由層和上膠囊層,膠囊神經(jīng)網(wǎng)絡利用路由將低層膠囊的信息動態(tài)傳輸?shù)礁邔幽z囊;
S32:在膠囊神經(jīng)網(wǎng)絡中是以載體的形式運輸?shù)模虼四z囊需要朝激活的方向進行處理;擠壓激活函數(shù)用于將輸入向量壓縮到(0,1),同時保持向量方向;輸出vj的計算公式如下:
其中:vj是膠囊j的矢量輸出,sj是總輸入量,并且vj和sj在同一方向;
vj是壓縮函數(shù),當sj較大時,vj接近1;當sj很小,vj則接近0;sj是置換向量,使輸出向量vj的長度在(0,1)范圍內(nèi);膠囊神經(jīng)網(wǎng)絡的第一層是具有ReLU激活函數(shù)的卷積層;除第一層膠囊外,其余所有膠囊的總輸入sj是所有預測向量的加權和是下層膠囊的層膠囊的輸出與重量矩陣Wij相乘,其公式如下:
其中j∈[1,k],k是類的數(shù)量;cij是動態(tài)路由過程中的耦合系數(shù),表示每個下層膠囊與其對應的上層膠囊之間的權重;對于膠囊,cij的權重之和是1;cij采用由softmax函數(shù)確定的動態(tài)路由算法,計算公式如下:
其中bij是膠囊i和膠囊j的對數(shù)概率,用于更新cij并將其初始化為0;
路線迭代期間,bij不斷采用以上公式更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經(jīng)大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011144401.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種在體內(nèi)獲得并純化大量目的LncRNA的方法
- 一種長鏈非編碼RNAlncRNA-ADDNR、干擾序列及其應用
- 確定lncRNA是否來源于假基因的方法
- 一種預測疾病與LncRNA關聯(lián)關系的方法及系統(tǒng)
- 用于診斷壓力性尿失禁的血清lncRNA標志物、引物組、試劑盒及應用
- 一種基于投影鄰域非負矩陣分解的lncRNA蛋白質(zhì)關聯(lián)預測方法
- 一種靶向抑制lncRNA-00861基因表達的siRNA在肝癌治療中的應用
- LncRNA預測方法、裝置、計算設備及計算機可讀存儲介質(zhì)
- 一種基因組合物在制備胃癌診斷試劑盒方面的用途
- 基于高階接近性和矩陣補全算法的lncRNA-疾病關聯(lián)預測方法





