[發明專利]一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法及裝置有效
| 申請號: | 202010571759.0 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111798921B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 杜博;劉子翼;羅甫林 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G16B5/20 | 分類號: | G16B5/20;G16B15/20;G16B20/30;G16B40/00;G06N3/04 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 尺度 注意力 卷積 神經網絡 rna 結合 蛋白 預測 方法 裝置 | ||
本發明公開了一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法,包括訓練階段和預測階段。訓練階段包括RNA數據的預處理,RNA數據的編碼,構建神經網絡和網絡參數訓練。通過將RNA的數學抽象的統計模式轉化成矩陣的形式,輸入到預先設計好的基于注意力機制的多尺度卷積神經網絡,通過使設計的特別交叉熵損失函數最小,使用Adam優化方法訓練神經網絡中的參數。在預測階段,以四個堿基為基本單元的RNA序列數據被輸入到網絡中,神經網絡最后一層輸出RNA數據中是否有結合蛋白對應的結合位點的概率大小,從而獲得對RNA序列類別的預測結果。本發明可以提高預測精度。
技術領域
本發明涉及生物信息技術領域,具體涉及一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法及裝置。
背景技術
生物信息技術是利用數學模型、統計學方法和計算機處理生物學數據的技術,生物信息學是一門隨著人類基因組計劃的啟動而興起的一門新的交叉學科。在生物信息學中,對于DNA/RNA和蛋白質的研究尤其重要,DNA/RNA是生物體中遺傳信息的載體和傳遞者,參與了遺傳信息的轉錄翻譯等重要的生化過程,蛋白質則是生命的物質基礎,這種有機大分子,是構成細胞的基本有機物,是生命活動的主要承擔者。研究DNA/RNA和蛋白質對于理解生命體內部的反應過程,治療疾病等有著非常重大的意義和價值,DNA/RNA和蛋白質不僅僅各自發揮著作用,它們的相互作用調控生物體內部的反應過程,而與RNA結合的蛋白質即RNA結合蛋白。
RNA結合蛋白(RBP)在活細胞的多個生物學過程中起著重要作用,例如基因調控和mRNA定位等。基因調節包括在活生物體中大量的共轉錄和轉錄后基因表達,包括聚腺苷酸化,RNA剪接,修飾,加帽,定位,翻譯和更新。研究人員發現,許多RBP的突變可能引起某些重要的疾病,例如神經退行性疾病,癌癥和心血管疾病,這是由某些RBP的功能障礙引起的。因此,在這方面的深入研究可以幫助人們進一步了解許多生物學機制和相關疾病的治療。
高通量技術的發展極大地促進了RNA-蛋白質相互作用的基因組研究。這些高通量技術,例如交聯免疫沉淀與高通量測序(CLIP-seq),可提供大量實驗驗證的RBP結合位點數據。但是它仍然有一些缺點,可能需要通過一些計算方法來彌補。首先,高通量技術既費時又昂貴。其次,由于實驗噪聲和當前的局限性,收集到的數據中存在許多假陽性和假陰性樣本。
預測RNA中是否存在結合蛋白的結合位點這個問題是一個二分類的問題,是在給定RNA序列數據的情況下,通過學習RNA結合位點的結構,從而預測RNA數據中是否存在對應結合位點。目前,相關的方法主要用于分析DNA/RNA數據的特點以及尋找一些基因缺陷導致的疾病的病理等等。
為了解決這些問題,國內外的科學家已提出了許多機器學習算法和計算工具來預測RBP結合位點并生成對應結合位點的結構。例如,BioBayesNet是第一個考慮結構特征,以解決轉錄因子結合位點的目標識別問題的工具。RNAContext是一種基序發現方法,可確定RBP對RNA序列和結構的相對結合偏好。GraphProt通過圖形編碼從序列和結構信息中提取大量特征,并使用支持向量機(SVM)來預測RNA結合位點是否存在。RNAcommender分析蛋白質結構域和預測的RNA二級結構,使用更高維的信息輔助從而得到更精確的預測。
本申請發明人在實施本發明的過程中,發現現有技術的方法,至少存在如下技術問題:
但是,這些傳統的機器學習方法并不能充分提取RNA數據的潛在復雜的特征,所以導致其預測精度普遍不高。
由此可知,現有技術中的方法存在預測精度不高的技術問題。
發明內容
本發明提出一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法及裝置,用于解決或者至少部分解決現有技術中的方法存在的預測精度不高的技術問題。
為了解決上述技術問題,本發明第一方面提供了一種基于多尺度注意力卷積神經網絡的RNA結合蛋白預測方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571759.0/2.html,轉載請聲明來源鉆瓜專利網。





