[發(fā)明專利]多組學融合剪接位點的識別方法及系統(tǒng)、設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110485740.9 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113178227B | 公開(公告)日: | 2022-12-09 |
| 發(fā)明(設(shè)計)人: | 楊曉飛;魏宏;葉凱 | 申請(專利權(quán))人: | 西安交通大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 安彥彥 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多組學 融合 剪接 識別 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
1.一種多組學融合剪接位點的識別方法,其特征在于,包括以下步驟:
對待測試樣本進行高通量測序,獲得轉(zhuǎn)錄組數(shù)據(jù)、組蛋白數(shù)據(jù)以及甲基化數(shù)據(jù),并對轉(zhuǎn)錄組數(shù)據(jù)、組蛋白數(shù)據(jù)以及甲基化數(shù)據(jù)進行質(zhì)量控制,獲得轉(zhuǎn)錄組數(shù)據(jù)高質(zhì)量的讀段文件、組蛋白數(shù)據(jù)高質(zhì)量的讀段文件和甲基化數(shù)據(jù)高質(zhì)量的讀段文件;
將轉(zhuǎn)錄組數(shù)據(jù)的高質(zhì)量的讀段文件和參考基因組文件進行比對,得到高質(zhì)量比對文件,再進行組裝,得到組裝后的注釋文件,將組裝后的注釋文件與標準注釋文件對比,得到剪接位點的位置;
根據(jù)剪接位點的位置對基因組數(shù)據(jù)進行提取并進行編碼,得到基因編碼結(jié)果,根據(jù)組蛋白數(shù)據(jù)高質(zhì)量的讀段文件對組蛋白數(shù)據(jù)進行提取并進行編碼,得到組蛋白編碼結(jié)果,根據(jù)甲基化數(shù)據(jù)高質(zhì)量的讀段文件對甲基化數(shù)據(jù)進行提取并進行編碼,得到甲基化編碼結(jié)果,將基因編碼結(jié)果、組蛋白編碼結(jié)果以及甲基化編碼結(jié)果組合,得到多組學數(shù)據(jù)集;
將多組學數(shù)據(jù)集進行分割,得到訓練集、驗證集和測試集;
將訓練集按照組學的不同放入到不同卷積核大小的卷積神經(jīng)網(wǎng)絡(luò)中,然后加入神經(jīng)網(wǎng)絡(luò)注意力機制,再進行特征提取,最后進行合并以聯(lián)合預測剪接位點,得到最優(yōu)深度學習網(wǎng)絡(luò);
通過最優(yōu)深度學習網(wǎng)絡(luò)對測試集進行識別,得到網(wǎng)絡(luò)識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種多組學融合剪接位點的識別方法,其特征在于,將同標準注釋文件與標準注釋文件對比,得到剪接位點的位置包括以下步驟:組裝后的注釋文件同標準注釋文件中相同的外顯子的右端點為5’端位點,左端點為3’端位點,組裝后的注釋文件中含有但在標準注釋文件中沒有的外顯子的右端點為可疑5’端位點,左端點為可疑3’端位點,隨機抽取與5’端位點、3’端位點、可疑5’端位點與可疑3’端位點不同的位點為非剪接位點;
剪接位點的位置包括5’端位點、3’端位點、可疑5’端位點、可疑3’端位點以及非剪接位點。
3.根據(jù)權(quán)利要求1所述的一種多組學融合剪接位點的識別方法,其特征在于,根據(jù)剪接位點的位置對基因組數(shù)據(jù)進行提取并進行編碼,得到基因編碼結(jié)果包括以下步驟:
通過給定位點直接從基因組數(shù)據(jù)中提取給定位點的上下各100nt范圍的DNA序列并進行獨熱編碼;其中,基因組數(shù)據(jù)的序列包含ACGT四種堿基,通過使用四維向量來對四種堿基進行編碼,得到序列的編碼為A為[1,0,0,0]T,C為[0,1,0,0]T,G為[0,0,1,0]T,T為[0,0,0,1]T。
4.根據(jù)權(quán)利要求1所述的一種多組學融合剪接位點的識別方法,其特征在于,根據(jù)組蛋白數(shù)據(jù)高質(zhì)量的讀段文件對組蛋白數(shù)據(jù)進行提取并進行編碼,得到組蛋白編碼結(jié)果包括以下步驟:
將組蛋白數(shù)據(jù)高質(zhì)量的讀段文件和測試樣本的讀段文件分別同參考基因組數(shù)據(jù)進行比對,獲得兩個高質(zhì)量的比對文件,再兩個高質(zhì)量的比對文件進行統(tǒng)計學上的比較,獲得信號p-value值,根據(jù)信號p-value值提取給定位點相應范圍的信號p-value值。
5.根據(jù)權(quán)利要求1所述的一種多組學融合剪接位點的識別方法,其特征在于,根據(jù)甲基化數(shù)據(jù)高質(zhì)量的讀段文件對甲基化數(shù)據(jù)進行提取并進行編碼,得到甲基化編碼結(jié)果包括以下步驟:
將甲基化數(shù)據(jù)高質(zhì)量的讀段文件同參考基因組文件進行比對,獲得高質(zhì)量的比對文件,將高質(zhì)量的比對文件通過bismark分析后獲得CpG、CHG和CHH位點的beta值,提取給定位點相應范圍的beta值。
6.根據(jù)權(quán)利要求1所述的一種多組學融合剪接位點的識別方法,其特征在于,將基因編碼結(jié)果、組蛋白編碼結(jié)果以及甲基化編碼結(jié)果組合,得到多組學數(shù)據(jù)集包括以下步驟:基因編碼結(jié)果、組蛋白編碼結(jié)果以及甲基化編碼結(jié)果組合按照位點進行合并,形成數(shù)據(jù)矩陣,數(shù)據(jù)矩陣包括兩個維度,第一維為十九維;第二維為長度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110485740.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于多組學豐度信息的蛋白質(zhì)二級質(zhì)譜鑒定方法
- 基于病例多組學變異特征的精準醫(yī)學知識搜索系統(tǒng)及實現(xiàn)方法
- 一種多組學數(shù)據(jù)聯(lián)合分析的方法
- 一種從多組學數(shù)據(jù)中分析關(guān)聯(lián)變化模式的系統(tǒng)和方法
- 多組學數(shù)據(jù)擾動云
- 基于D-S證據(jù)理論進行多組學數(shù)據(jù)集成的癌癥亞型分類方法
- 一種非小細胞肺癌患者術(shù)后復發(fā)相關(guān)性因素研究方法
- 一種基于深度學習的多組學智能診斷系統(tǒng)
- 用于癌癥基因組和臨床數(shù)據(jù)綜合分析的多組學搜索引擎
- 單組學及多組學KEGG PATHWAY map表達熱圖個性化展示的方法及應用





