[發明專利]一種基于注意力機制的剪接位點預測及解釋性方法在審
| 申請號: | 202210178010.9 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114566216A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 張艷菊;許峻瑋;齊王璟;王榮興 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B40/00;G06N3/08;G06N3/04 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 陶平英 |
| 地址: | 541004 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 剪接 預測 解釋性 方法 | ||
1.一種基于注意力機制的剪接位點預測及解釋性方法,其特征在于,包括如下步驟:
1)收集五個物種的剪接位點數據集,將收集到的剪接位點數據集進行正負樣本劃分,分為訓練集、驗證集和測試集;
2)將步驟1)獲得的五個物種剪接位點數據集,根據每個物種既有供體剪接位點樣本又有受體剪接位點樣本,共分成10個樣本數據集,并將該10個樣本數據集的堿基序列轉為Onehot編碼;
3)利用多層次的非線性函數模擬數據之間的復雜關系,構建卷積神經網絡模型,其表達式為:
Lable of class=ffcn(fconv2(fconv1(Sequence nucleotide signal)))
其中Lable of class表示卷積神經網絡模型最終的分類,Sequence nucleotidesignal表示堿基序列所對應的輸入特征編碼,fconv1表示第一層卷積層,fconv2表示第二個卷積層,ffcn表示將輸入特征經過卷積等步驟后的中間結果傳入全連接層;
在卷積神經網絡模型中,若每個神經元連接的過濾器窗口的權重是固定,則依據平移不變性滑動共享過濾器權重,卷積層由一組過濾器組成,滑動過濾器與輸入向量作點積運算,對于輸入x,每個通道上都有一個過濾器ω(1,c),第一個卷積層的第一個過濾器點積運算結果z1,(i,j,k)表示為:
z1,(i,j,k)=(x*ω1,c)i,j,k+b1,(k,1)
其中i、j和c分別表示該卷積層輸出的行、列和通道,k為當前層的過濾器,b1,(k,1)表示第一個過濾器卷積操作時的偏置值;
基于三個通道的卷積層輸出結果z1,(i,j,c)為:
其中i、j和c分別表示輸入該卷積層的行、列和通道,l、m、n分別代表過濾器的行、列和通道,k為當前卷積層使用的過濾器;
4)基于步驟3)對輸入的特征編碼進行初步的特征學習,采用基于卷積模塊的注意力機制CBAM(Convolutional Block Attention Module,CBAM)對步驟3)的結果進行注意力關注學習,從通道注意力和空間注意力兩部分獲取特征圖的關鍵位置,給定中間特征圖F∈RC×H×W作為輸入,CBAM依次推斷一維通道注意力Mc∈RC×1×1和二維空間注意力,公式表示如下:
其中表示逐元素乘法,在乘法時,注意力值被相應地廣播,F1是特征圖F經過通道注意力模塊輸出結果,F1和F2為注意力機制模塊CBAM最終結果的輸出;
5)基于步驟3)構建的卷積神經網絡模型和步驟4)中的注意力機制CBAM,構建基于注意力機制的卷積神經網絡模型,利用步驟1)劃分的訓練集和驗證集對基于注意力機制的卷積神經網絡模型進行訓練和訓練過程中模型的驗證輸出,每次訓練作30次迭代,以交叉熵損失函數更新反向傳播,交叉熵損失函數對于每個類別預測得到的概率為p和1-p,交叉熵損失函數L的表達式為:
其中Li表示樣本i的損失函數,N表示樣本總數,yi表示i的label,正類為1,負類為0;pi表示樣本i預測為正類的概率;
6)將測試集數據輸入步驟5)訓練好的模型中,獲取模型的預測分值并構建混淆矩陣,最終在準確率Acc、特異性Sp、敏感性Sn、F分數F1和受試者工作特征曲線下面積AUC評估五個物種的供體剪接位點和受體剪接位點的性能,具體為:
其中TP、TN、FP和FN分別代表真陽性,真陰性,假陽性和假陰性的數目;
7)進行解釋性分析:采用梯度類激活映射Grad-CAM可視化技術實現對卷積神經網絡模型內部表征及決策結果的解釋,Grad-CAM首先計算c類別的卷積神經網絡模型得分對于卷積層的梯度,同時對得到的梯度信息,在每個通道上對各特征向量值取平均,即全局平均池化,得到各個特征圖的權重,特征圖尺寸為c1*c2,權重計算公式為:
其中表示第i個特征圖對類別c的權重,Z表示特征圖的數量,表示第i個特征圖的第k行、第j列像素值,Sc為第c類的分類得分;
通過加權求和平均,再使用ReLu激活函數計算可得Grad-CAM結果,計算公式為:
其中表示c類的類激活映射結果,采用可視化技術查看剪接位點序列的不同位置權重分數,最終獲得熱力圖和不同位置預測分值的權重圖;
8)泛化性分析:依據不同物種的解釋性分析結果和模型性能比較,獲得跨物種解釋性分析以及跨物種剪接位點共性規律分析。
2.根據權利要求1所述的一種基于注意力機制的剪接位點預測及解釋性方法,其特征在于,步驟1),所述的五個物種的剪接位點數據集,包括人類、擬南芥、粳稻、黑腹果蠅和秀麗隱桿線蟲的剪接位點數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210178010.9/1.html,轉載請聲明來源鉆瓜專利網。





