[發明專利]神經網絡提取調控DNA組合模式的訓練和可視化方法及系統有效
| 申請號: | 202110063192.0 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112735514B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 汪小我;魏征 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B30/00;G16B40/00;G16B50/00;G06N3/04;G06N3/08;G06N3/12 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 李巖 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 提取 調控 dna 組合 模式 訓練 可視化 方法 系統 | ||
本發明公開了一種神經網絡提取調控DNA組合模式的訓練和可視化方法及系統,該方法包括:獲取具有特定功能的DNA序列和不具有特定功能的DNA序列;對兩種DNA序列進行標注,并將具有特定功能的DNA序列和不具有特定功能的DNA序列使用獨熱編碼表示;搭建卷積神經網絡,將標注后的DNA序列的獨熱編碼作為輸入,對應DNA序列標注為卷積神經網絡輸出的擬合值,對卷積神經網絡進行訓練,以使卷積神經網絡識別DNA序列;使用NeuronMotif算法將訓練后的卷積神經網絡解耦,獲得基因調控元件組合模塊,并使用調控元件語法樹進行表示和存儲。該方法提供了一種解耦卷積神經網絡的通用神經網絡解釋算法NeuronMotif,以發掘和可視化卷積神經網絡所識別的模式。
技術領域
本發明涉及基因調控技術領域,特別涉及一種神經網絡提取調控DNA組合模式的訓練和可視化方法及系統。
背景技術
基因表達與調控決定著細胞的生長和分化,控制基因的轉錄調控過程可在一定程度上控制基因表達的水平進而控制細胞的各種狀態。在基因的轉錄調控過程中,基因組DNA上各種調控元件的組合排布邏輯是最關鍵的因素之一。在基因編輯和改造的應用中,可以針對特定基因功能的需要,根據多個調控元件的堿基偏好、距離位置、先后順序、出現數量等邏輯進行設計和調整,以達到對基因轉錄水平的控制。但如此復雜的調控模塊和邏輯很難用當前的淺層機器學習方法和模型進行提取和表示。深度學習模型因其復雜的表現能力和優秀的特征自動提取能力在很多基因組功能注釋任務中表現卓越,但其習得的基因調控元件組合模塊難以被解讀和提取。
最近幾年大量工作在研究神經網絡中基因調控元件組合模塊的提取方法,取得了一定的進展,但這些進展并沒有使問題得到解決。目前,在DNA序列預測的問題中解釋神經網絡的思路基本上是一致的,都是研究神經元輸入的堿基與神經元輸出之間的關系,方法基本改進自計算機視覺領域,也可應用于計算機視覺或其它領域中神經網絡的可視化。這些方法基本可以分為三大類:(1)改變輸入查看輸出值的變化;(2)反向梯度傳播算法;(3)激活值最大化的序列輸入分布。它們從一定水平上解釋了神經網絡,但都忽略了神經網絡是一個混合模型,沒有方法設法去打開神經網絡黑盒以解決這個問題。
改變輸入查看輸出值的變化這種方法的典型代表是DeepSEA。這種方法的優點是最簡單和直白,便于理解。若輸入的堿基發生了改變,而輸出的神經元沒有發生改變,則該堿基不是關鍵的堿基,反之則說明該堿基非常重要。這種方法的主要的缺點是計算量特別大,每個堿基位置發生改變的組合數量是隨著DNA序列長度指數增長的。這種方法多適用于研究單核苷酸多態性問題,它關心的是一段序列中,少數位點的突變對功能所帶來的影響,而不是研究所有堿基位置,所以能夠基本滿足用戶需求。這種解析似乎并不能展現神經網絡所學習到的知識全貌,大部分對神經網絡解析的工作都沒有局限在此方法上,因此它的應用不是特別廣泛。
對于另外兩種方法,它們都借鑒了近幾年圖像領域中常用的方法,可以用來解析每個樣本中所有堿基的重要性。實現這兩種方法利用的都是反向梯度傳播算法,但具體使用方法不同。Saliency Map和DeepLIFT是基于反向梯度傳播算法的解析方法中的典型代表,它們使用的是神經元輸出值對輸入值的偏導數或者類似變形作為輸入位置的重要性評價。這種方法可以使用反向梯度傳播算法來進行方便的求解,因此可以容易地應用于任何神經元,使用者只需要提供一段待研究的序列,輸入神經網絡,正向傳播一次,再計算某種梯度反向傳播一次,即可完成序列中對應位置的重要性注釋。因為它的計算成本較低,所以使用起來要相對更廣泛一些,但它也存在相當多的問題。其中一個問題是它不能直接計算出Motif,Motif是針對于多個序列具有的所有堿基位置的概率分布統計,而這種方法僅僅提供一個序列對應位置的重要性評價,因此不具有統計意義。為了滿足這種需求,基于DeepLIFT算法的研究組又開發了TF-MoDISco,它的基本思路是將一些關心的序列中的關鍵子序列進行匹配對齊、切割、聚類等一系列后處理,最終將多個序列各個堿基位置的重要性評分進行合并。但存在的問題是,每條序列對應位置的重要性評分并不具有可比性,相對大小沒有絕對的意義,而且計算操作過程很依賴于人工設定,結果不是特別穩定,因此計算得到或發現的所謂“Motif”也就沒有得到廣泛的應用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110063192.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有三軸補償機構的工件抓取裝置
- 下一篇:多節臂同步伸縮機構及消防車





