[發明專利]一種基于注意力機制的剪接位點預測及解釋性方法在審
| 申請號: | 202210178010.9 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114566216A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 張艷菊;許峻瑋;齊王璟;王榮興 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B40/00;G06N3/08;G06N3/04 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 陶平英 |
| 地址: | 541004 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 剪接 預測 解釋性 方法 | ||
本發明公開了一種基于注意力機制的剪接位點預測及解釋性方法,該方法提出結合注意力機制的卷積神經網絡模型,精準識別剪接位點,并基于模型,提出可視化權重解釋分析方法,在五個物種上建立了有效的預測模型。獨立測試集的結果證明了在涉及五個物種的10個數據集上,本發明模型比現有模型更具有魯棒性,性能更優,泛化能力更強。隨后,為研究結合注意力機制的卷積神經網絡模型能達到更好性能的原因,本發明采用于梯度類激活映射可視化技術獲取模型對于每個樣本的位置權重分布,最終驗證了模型能夠自動注意并獲取到樣本的有效特征。本發明可以提高預測精度和對剪接位點序列進行解釋性分析。
技術領域
本發明涉及基因的剪接位點識別預測技術領域,具體是一種基于注意力機制的剪接位點預測及解釋性方法。
背景技術
剪接操作是細胞將遺傳信息表達為蛋白質過程中的關鍵一步,對剪接位點的正確識別更是重中之重。研究顯示,對剪接位點進行研究不僅能夠幫助研究人員了解從DNA到RNA轉化過程中的剪接機制,還能協助推導出轉錄本的組成結構。近期研究表明,基因的不同剪接模式與肺癌、抑郁癥等復雜的疾病相關。剪接位點結合臨床疾病的研究,還能分析剪接事件與疾病形成及發生機制之間的關系。
目前,針對剪接位點的研究中,研究者通過提取剪接位點上游和下游的部分堿基作為數據集,然后提取特征并采用機器學習算法學習樣本序列內在信息,構建模型并成功預測。例如,Pertea等人采用了決策樹算法,并通過馬爾科夫算法對其增強以捕獲剪接位點周圍信息,開發出模型GeneSplicer。Degroeve等人采用線性支持向量機算法來構建線性模型SpliceMachine,以從高維度特征表示中獲取有效信息來預測剪接位點。Baten等人利用MM1特征提取方法從剪接位點序列中提取特征,并將其輸入到SVM中以區分真或假剪接位點。上述方法存在明顯的弊端,即需要研究者手動獲取特征,再進行特征選擇。研究者提取特征依賴于現有對剪接位點的認識,這在一定程度上限制了模型能夠學習特征的范圍,模型可能忽略樣本序列中存在但人們暫時未認識到的特征信息。近年來,研究者引入深度學習技術對剪接位點進行預測。例如,Du等人基于卷積神經網絡構建了DeepSS模型,針對人類和秀麗隱桿線蟲數據集預測剪接位點。Zuallaert等人基于CNN構建了SpliceRover模型以預測剪接位點,通過算法解釋了作者提出的五個假設。
盡管上述方法能夠獲得良好性能,但是研究者仍然需要探索更優的預測性能。此外,雖然深度學習技術獲得高性能,但研究人員通常難以解釋深度學習如何影響了模型的性能。
發明內容
本發明的目的在于針對現有剪接位點識別方法存在的問題,而提供一種基于注意力機制的剪接位點預測及解釋性方法,該方法構建基于卷積神經網絡結合注意力機制的高性能剪接位點預測模型,并采用可視化技術分析剪接位點序列的不同位置權重并做解釋性研究,最后分析本方法在極大地提高模型性能的同時,是否能夠帶來跨物種的泛化能力。
實現本發明目的的技術方案是:
一種基于注意力機制的剪接位點預測及解釋性方法,包括如下步驟:
1)收集五個物種的剪接位點數據集,將收集到的剪接位點數據集進行正負樣本劃分,分為訓練集、驗證集和測試集;
2)將步驟1)獲得的五個物種剪接位點數據集,根據每個物種既有供體剪接位點樣本又有受體剪接位點樣本,共分成10個樣本數據集,并將該10個樣本數據集的堿基序列轉為Onehot編碼;
3)利用多層次的非線性函數模擬數據之間的復雜關系,構建卷積神經網絡模型,其表達式為:
Lable of class=ffcn(fconv2(fconv1(Sequence nucleotide signal)))
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210178010.9/2.html,轉載請聲明來源鉆瓜專利網。





