[發(fā)明專利]基于峰聚類的單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)分析方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201910256667.0 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN111755071A | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 瞿昆;方靖文;黎斌;李楊 | 申請(專利權(quán))人: | 中國科學(xué)技術(shù)大學(xué) |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 崔亞松;張瑩 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 峰聚類 單細(xì)胞 染色質(zhì) 序數(shù) 分析 方法 系統(tǒng) | ||
一種基于峰聚類的單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)分析方法和系統(tǒng),所述方法包括:將單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)與相應(yīng)的生物樣本基因組數(shù)據(jù)進(jìn)行比對獲得比對結(jié)果,并在所述比對結(jié)果的基礎(chǔ)上尋峰,并計(jì)算每個(gè)峰內(nèi)讀數(shù),得到細(xì)胞*峰的讀數(shù)矩陣;計(jì)算細(xì)胞*峰的讀數(shù)矩陣中峰與峰之間的數(shù)學(xué)距離,將峰聚類,并將細(xì)胞*峰的讀數(shù)矩陣合并為細(xì)胞*accesson的讀數(shù)矩陣,其中accesson為聚類后的峰。本發(fā)明提供了首個(gè)從fastq到聚類、可視化和發(fā)育路徑重塑的scATAC?seq數(shù)據(jù)分析方法和系統(tǒng),并顯著提高了分群效果。
技術(shù)領(lǐng)域
本發(fā)明屬于生物測序數(shù)據(jù)分析技術(shù)領(lǐng)域,具體涉及一種基于峰聚類的單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)分析方法和系統(tǒng)。
背景技術(shù)
ATAC-seq自2012年發(fā)明以來,由于簡潔、廉價(jià)、所需細(xì)胞少的優(yōu)點(diǎn),在生物學(xué)領(lǐng)域的研究中廣泛普及,在胚胎發(fā)育、干細(xì)胞分化、癌癥機(jī)理和分型等研究貢獻(xiàn)了突破性的進(jìn)展。如2017年一篇CANCER?Cell(IF=24)發(fā)現(xiàn)可用ATAC-seq解釋T細(xì)胞淋巴瘤的發(fā)病機(jī)理和精準(zhǔn)用藥分型,2018年ATAC-seq數(shù)據(jù)進(jìn)入TCGA數(shù)據(jù)庫。因此,為進(jìn)一步研究細(xì)胞異質(zhì)性,scATAC-seq測序技術(shù)在2015年被人提出并在幾年的發(fā)展中實(shí)現(xiàn)了多種不同技術(shù)方案,隨之產(chǎn)生就是scATAC-seq測序結(jié)果數(shù)據(jù)的分析解讀。
scATAC-seq數(shù)據(jù)分析的主要目的,即通過測序結(jié)果,還原混合生物樣本中的主要細(xì)胞群體或發(fā)育分化路徑。然而,目前的scATAC-seq技術(shù)比較前沿,數(shù)據(jù)的信噪比較低。因此,scATAC-seq數(shù)據(jù)分析需要一套易于使用的分析方法,并最大程度的還原細(xì)胞異質(zhì)性信息。目前已公開的scATAC-seq數(shù)據(jù)分析方法,一方面尚無從fastq起始的,到聚類、可視化、發(fā)育路徑重建這樣一條完善的、易于使用分析流程。另一方面,通過使用金標(biāo)準(zhǔn)測試數(shù)據(jù)集評估,即一些已知每個(gè)細(xì)胞所屬亞群或發(fā)育分化路徑中的位置的測試數(shù)據(jù)集。已有方法在信息還原上仍效果不佳,亟需改進(jìn)(利用ARI評估)。也正因如此,scATAC-seq分析目前并無業(yè)內(nèi)統(tǒng)一的分析方法。
現(xiàn)有技術(shù)中有以下三種分析方法:ChromVAR,LSI和Cicero。
在ChromVAR方法中,該方法輸入數(shù)據(jù)為細(xì)胞*峰的讀數(shù)矩陣,及每個(gè)峰的序列信息.該方法通過已知的轉(zhuǎn)錄因子motif信息,對每個(gè)峰,計(jì)算轉(zhuǎn)錄因子的偏好程度。由此構(gòu)建一個(gè)細(xì)胞*轉(zhuǎn)錄因子的偏好分?jǐn)?shù)矩陣,并用此矩陣進(jìn)行信息還原。
在LSI方法中,該方法輸入數(shù)據(jù)為細(xì)胞*峰的讀數(shù)矩陣.該方法通過TF-IDF算法(詞頻(Term?Frequency),IDF意思是逆文本頻率指數(shù)),將矩陣復(fù)雜化,然后通過新矩陣進(jìn)行信息還原。
在Cicero方法中,該方法輸入數(shù)據(jù)為細(xì)胞*峰的讀數(shù)矩陣,和峰在染色體上的位置信息.該方法通過峰在染色質(zhì)上的位置,將距離在一定絕對空間的峰的讀數(shù)合并(如:250kb以內(nèi)的峰)。然后用此矩陣進(jìn)行下游信息還原。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提出一種完備的、易于使用的且具有高效細(xì)胞異質(zhì)性信息還原能力的生物學(xué)樣本scATAC-seq數(shù)據(jù)分析方法和系統(tǒng)。
為了達(dá)到上述目的,一方面,本發(fā)明提出了一種基于峰聚類的單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)分析方法,包括:
將單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)與相應(yīng)的生物樣本基因組數(shù)據(jù)進(jìn)行比對獲得比對結(jié)果,并在所述比對結(jié)果的基礎(chǔ)上尋峰,并計(jì)算每個(gè)峰內(nèi)讀數(shù),得到細(xì)胞*峰的讀數(shù)矩陣;
計(jì)算細(xì)胞*峰的讀數(shù)矩陣中峰與峰之間的數(shù)學(xué)距離,將峰聚類,并將細(xì)胞*峰的讀數(shù)矩陣合并為細(xì)胞*accesson的讀數(shù)矩陣,其中accesson為聚類后的峰。
在一些實(shí)施例中,所述方法還包括將所述細(xì)胞*accesson的讀數(shù)矩陣降維為二位可視化矩陣,優(yōu)選地,降維的方法包括PCA、T-SNE或UMAP。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)技術(shù)大學(xué),未經(jīng)中國科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910256667.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于聚類子區(qū)域關(guān)聯(lián)的穩(wěn)定特征挖掘和目標(biāo)跟蹤方法
- 一種智能制定電力客戶削峰填谷策略的方法
- 一種增量式密度峰搜索聚類方法
- 基于密度峰值聚類算法的神經(jīng)元峰電位在線分類方法
- 一種基于同態(tài)加密的隱私保護(hù)密度峰聚類方法
- 基于改進(jìn)后密度峰和K均值聚類的簇絨地毯圖像分割方法
- 基于峰聚類的單細(xì)胞染色質(zhì)可及性測序數(shù)據(jù)分析方法和系統(tǒng)
- 基于K-Means算法改進(jìn)的高頻職業(yè)技能生命曲線聚類方法
- 特征化密度峰聚類的出租車熱點(diǎn)區(qū)域提取方法
- 一種利用GPU加速密度峰聚類的方法
- 單細(xì)胞表現(xiàn)型數(shù)據(jù)庫系統(tǒng)和搜索引擎
- 活體單細(xì)胞拉曼分析平臺數(shù)字控制系統(tǒng)和方法
- 單細(xì)胞捕獲轉(zhuǎn)移系統(tǒng)及單細(xì)胞捕獲轉(zhuǎn)移方法
- 高通量單細(xì)胞轉(zhuǎn)錄組與基因突變整合分析方法
- 基于交變滯慣力打印的單細(xì)胞水平相互作用模型構(gòu)建方法
- 單細(xì)胞蛋白生產(chǎn)菌及其應(yīng)用
- miRNA因果調(diào)控網(wǎng)絡(luò)識別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種單細(xì)胞分選裝置和單細(xì)胞分選方法
- 一種單細(xì)胞培養(yǎng)系統(tǒng)及單細(xì)胞培養(yǎng)方法
- 流體捕獲芯片、單細(xì)胞捕獲轉(zhuǎn)移系統(tǒng)與單細(xì)胞分析方法
- 一種Smad4染色質(zhì)伸展活性檢測方法
- 全細(xì)胞水平高效捕獲染色質(zhì)轉(zhuǎn)錄調(diào)控區(qū)的新方法及其用途
- 應(yīng)用于斑馬魚胚胎的先加標(biāo)簽的染色質(zhì)免疫共沉淀高通量測序?qū)嶒?yàn)方法
- 研究核酸的方法
- 一種提取動(dòng)物細(xì)胞核內(nèi)染色質(zhì)及其相關(guān)蛋白的方法
- 一種基于染色質(zhì)調(diào)控環(huán)路檢測復(fù)雜疾病上位性的方法及系統(tǒng)
- 精子染色質(zhì)結(jié)構(gòu)檢測試劑盒及其應(yīng)用
- 同源染色體之間的靶向重組及其用途
- 高效靶向原位全基因組剖析
- 能夠影響染色質(zhì)或染色體去濃縮的多肽及其制備方法





