[發(fā)明專利]基于在線機器學(xué)習(xí)的Hi-C接觸矩陣中層級式TADs差異分析方法有效
| 申請?zhí)枺?/td> | 201910315741.1 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110097922B | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設(shè)計)人: | 呂紅強;劉聰毅;韓九強 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B25/00;G16B40/00;G16B45/00;G06F17/15;G06F17/16;G06N20/00 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 在線 機器 學(xué)習(xí) hi 接觸 矩陣 層級 tads 差異 分析 方法 | ||
一種基于在線機器學(xué)習(xí)的Hi?C接觸矩陣中層級式TADs差異分析方法,對Hi?C數(shù)據(jù)進行標準化處理以消除實驗系統(tǒng)偏差并增強數(shù)據(jù)間可比性;對標準化后的數(shù)據(jù)計算每個bin上下游區(qū)域之間的交互頻數(shù)平均值,記為binSignal(i);對序列binSignal擬合并進行秩和檢驗,得到TADs的邊界區(qū)域點;根據(jù)邊界區(qū)域點得到所有可能層級式TADs,提出Hi?C接觸矩陣中交互頻數(shù)和所有可能層級式TADs之間的數(shù)學(xué)模型;確立模型的目標函數(shù),并首次采用在線機器學(xué)習(xí)算法FTRL進行層級式TADs差異分析模型的求解,識別出不同細胞系具有差異性的層級式TADs。本發(fā)明提出了Hi?C接觸矩陣中交互頻數(shù)和層級式TADs之間的數(shù)學(xué)模型,并采用在線機器學(xué)習(xí)算法FTRL求得所有層級式TADs的權(quán)重系數(shù),識別出不同細胞系之間有差異性的TADs。
技術(shù)領(lǐng)域
本發(fā)明屬于生物技術(shù)領(lǐng)域,涉及不同細胞系下層級式TADs差異性分析,特別涉及一種基于在線機器學(xué)習(xí)的Hi-C接觸矩陣中層級式TADs差異分析方法。
背景技術(shù)
Hi-C技術(shù)是一種高通量染色質(zhì)構(gòu)象捕獲技術(shù),通過Hi-C實驗可以獲得全基因組任意位點之間的相互作用信息。Hi-C數(shù)據(jù)為通過Hi-C實驗獲得的數(shù)據(jù),Hi-C數(shù)據(jù)一般形式是一個矩陣,該矩陣被稱為接觸矩陣,接觸矩陣是一個對稱的方陣,接觸矩陣中每個元素被稱為交互頻數(shù)。隨著Hi-C技術(shù)的發(fā)展,科學(xué)家在對Hi-C數(shù)據(jù)研究時發(fā)現(xiàn)每個染色體大體可以分為染色體狀態(tài)活躍和消極的兩個區(qū)室(A/B compartment),其中A區(qū)室染色體狀態(tài)活躍,B區(qū)室染色體狀態(tài)消極,基于兩種類別區(qū)室的發(fā)現(xiàn),在更高的分辨率下,科學(xué)家又發(fā)現(xiàn)區(qū)室內(nèi)存在相互作用強度較高的基因組區(qū)域,把它稱為拓撲關(guān)聯(lián)結(jié)構(gòu)域(topologicalassociated domains,TADs),拓撲關(guān)聯(lián)結(jié)構(gòu)域內(nèi)位點相互作用的強度遠遠高于外部的相互作用強度。
大量生物實驗表明,TADs是調(diào)控基因轉(zhuǎn)錄表達的基本作用元件,在基因調(diào)控過程中,TADs約束了增強子和啟動子的調(diào)控作用,除此之外,TADs邊界的破壞也可能會導(dǎo)致一些疾病的發(fā)生,例如癌癥。研究表明,大多數(shù)的TADs具有層級式結(jié)構(gòu),只有極少數(shù)的TADs是獨立的。通過對層級式TADs進行差異性分析,可以深入了解基因表達影響細胞分化的機制。
現(xiàn)有技術(shù)分析TADs差異性的方法在考慮TADs的層級式結(jié)構(gòu)方面有所欠缺,會影響差異性TADs的識別率。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種基于在線機器學(xué)習(xí)的Hi-C接觸矩陣中層級式TADs差異分析方法,針對不同細胞系下的Hi-C數(shù)據(jù),進行層級式TADs差異分析。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種基于在線機器學(xué)習(xí)的Hi-C接觸矩陣中層級式TADs差異分析方法,其特征在于,包括如下步驟:
步驟1、對Hi-C數(shù)據(jù)進行標準化處理以消除Hi-C實驗的系統(tǒng)偏差并且增強數(shù)據(jù)之間的可比性;
步驟2、對經(jīng)過標準化之后的Hi-C數(shù)據(jù)計算每個bin上游和下游區(qū)域之間的交互頻數(shù)的平均值,記為binSignal(i);
步驟3、利用曲線擬合算法對序列binSignal進行擬合,將擬合曲線的局部最小點初步視為TADs的邊界區(qū)域點;
步驟4、通過秩和檢驗的方法,對假陽性的TADs邊界區(qū)域點進行濾除,獲得最終的TADs的邊界區(qū)域點;
步驟5、根據(jù)TADs的邊界區(qū)域點得到所有可能的層級式TADs,提出Hi-C接觸矩陣M中交互頻數(shù)Mij和所有可能層級式TADs之間的數(shù)學(xué)模型;
步驟6、確立模型的目標函數(shù),利用在線機器學(xué)習(xí)算法FTRL對目標函數(shù)進行求解;
步驟7、基于求解的結(jié)果,識別出不同細胞系具有差異性的層級式TADs。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910315741.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





