[發(fā)明專(zhuān)利]大規(guī)模單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)高效聚類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110459530.2 | 申請(qǐng)日: | 2021-04-27 |
| 公開(kāi)(公告)號(hào): | CN113178233B | 公開(kāi)(公告)日: | 2023-04-28 |
| 發(fā)明(設(shè)計(jì))人: | 高琳;史凱玥;胡宇軒;葉育森;張晨星 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安電子科技大學(xué) |
| 主分類(lèi)號(hào): | G16B40/30 | 分類(lèi)號(hào): | G16B40/30;G06F18/23213;G16B30/10 |
| 代理公司: | 陜西電子工業(yè)專(zhuān)利中心 61205 | 代理人: | 王品華;朱紅星 |
| 地址: | 710071*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 大規(guī)模 單細(xì)胞 轉(zhuǎn)錄 數(shù)據(jù) 高效 方法 | ||
本發(fā)明公開(kāi)了一種大規(guī)模單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)高效聚類(lèi)方法,主要解決現(xiàn)有大規(guī)模聚類(lèi)方法運(yùn)行時(shí)間長(zhǎng),效率低,甚至不能正常運(yùn)行的問(wèn)題。其方案為:對(duì)大規(guī)模單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的基因特征進(jìn)行篩選,篩選出高表達(dá)的基因,初步降低細(xì)胞維度;對(duì)細(xì)胞進(jìn)行密度抽樣,使抽樣出的一組新樣本盡可能的包含更完整的細(xì)胞類(lèi)型;對(duì)抽樣出的新樣本進(jìn)行共享最近鄰SNN構(gòu)圖圖并使用Louvain算法對(duì)共享最近鄰SNN圖進(jìn)行聚類(lèi),獲得新樣本中細(xì)胞的細(xì)胞類(lèi)型;對(duì)于剩下的未參與聚類(lèi)的細(xì)胞,分別在已知標(biāo)簽的細(xì)胞中查找近似k近鄰,k近鄰中最多的那一類(lèi)細(xì)胞的類(lèi)型,即為未參與聚類(lèi)的細(xì)胞類(lèi)型。本發(fā)明運(yùn)行時(shí)間短,效率高,可用于大規(guī)模細(xì)胞類(lèi)型識(shí)別,細(xì)胞軌跡推理。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種單細(xì)胞轉(zhuǎn)錄組聚類(lèi)方法,可用于大規(guī)模細(xì)胞類(lèi)型識(shí)別,細(xì)胞軌跡推理,基因差異表達(dá)。
背景技術(shù)
隨著單細(xì)胞測(cè)序技術(shù)的發(fā)展和測(cè)序成本的下降,越來(lái)越多的大規(guī)模單細(xì)胞數(shù)據(jù)被產(chǎn)生。而對(duì)這些大規(guī)模高維的單細(xì)胞數(shù)據(jù)進(jìn)行處理和分析是一個(gè)非常具有挑戰(zhàn)性的工作。聚類(lèi)分析是單細(xì)胞分析中最基礎(chǔ)的一個(gè)步驟,聚類(lèi)的準(zhǔn)確率和效率對(duì)后續(xù)分析有很大的影響。
以往的單細(xì)胞聚類(lèi)算法,由于當(dāng)時(shí)數(shù)據(jù)量的限制,在設(shè)計(jì)算法時(shí),并沒(méi)有考慮到應(yīng)用于大規(guī)模的數(shù)據(jù),其主要是應(yīng)用于小規(guī)模的單細(xì)胞數(shù)據(jù)集。當(dāng)數(shù)據(jù)量提升時(shí),其運(yùn)行時(shí)間會(huì)大幅增加,效率是十分低的,甚至有的算法不能正常運(yùn)行。
目前已經(jīng)開(kāi)發(fā)了一些專(zhuān)門(mén)的聚類(lèi)算法來(lái)從單細(xì)胞RNA數(shù)據(jù)集中識(shí)別細(xì)胞的類(lèi)型。
2015年Chen?Xu等人在Bioinformatics上提出的單細(xì)胞聚類(lèi)方法SNN-Cliq,是利用共享最近鄰SNN的概念定義相似性并進(jìn)行構(gòu)圖,之后使用一種基于準(zhǔn)clique的聚類(lèi)算法進(jìn)行聚類(lèi)。這個(gè)方法在高維度的單細(xì)胞基因表達(dá)數(shù)據(jù)集上,比傳統(tǒng)方法更有優(yōu)勢(shì),此外,它需要很少的輸入?yún)?shù),且能夠自動(dòng)確定聚類(lèi)的個(gè)數(shù)。
2016年Justina?Zurauskiene等人在BMC上提出了一個(gè)名為pcaReduce的聚類(lèi)算法,它整合了主成分分析PCA和層次聚類(lèi)方法,建立了主成分分析給出的降維后的表示和細(xì)胞聚類(lèi)的數(shù)量之間的關(guān)系。
2017年P(guān)eijie?Lin等人在Genome?Biology上提出了一個(gè)名為CIDR的聚類(lèi)算法,該算法通過(guò)插補(bǔ)以減少單細(xì)胞數(shù)據(jù)中dropout的影響,并且改進(jìn)了PCA和層次聚類(lèi)算法,在當(dāng)時(shí)聚類(lèi)精度方面優(yōu)于當(dāng)時(shí)最先進(jìn)的算法,t-SNE,ZIFA和RaceID,CIDR通常在幾秒鐘內(nèi)可以完成處理數(shù)百個(gè)細(xì)胞的數(shù)據(jù)集,幾分鐘內(nèi)完成處理數(shù)千個(gè)細(xì)胞的數(shù)據(jù)集,這在當(dāng)時(shí)可以說(shuō)是最快的算法。
2017年Bo?Wang等人在Nature?Methods上提出的名為SIMLR的分析框架和軟件,它主要的貢獻(xiàn)是從單細(xì)胞RNA-seq數(shù)據(jù)中學(xué)習(xí)出一個(gè)合適的度量細(xì)胞間相似性的標(biāo)準(zhǔn),有了這種相似性度量標(biāo)準(zhǔn)后,就可以進(jìn)行后續(xù)的降維、聚類(lèi)和可視化。
2017年Vladimir?Yu.Kiselev等人在Nature?Methods上提出了一個(gè)單細(xì)胞RNA測(cè)序數(shù)據(jù)的無(wú)監(jiān)督聚類(lèi)算法SC3。它是利用多個(gè)度量標(biāo)準(zhǔn)計(jì)算細(xì)胞之間的距離,構(gòu)建距離矩陣后通過(guò)k-means聚類(lèi),再將多個(gè)距離度量標(biāo)準(zhǔn)得到的聚類(lèi)結(jié)果通過(guò)CSPA進(jìn)行一致聚類(lèi)得到最終的聚類(lèi)結(jié)果。通過(guò)一致聚類(lèi)的方法將多個(gè)聚類(lèi)結(jié)果組合到一起,從而得到高精度和魯棒的聚類(lèi)結(jié)果。但這個(gè)算法需要研究人員自己定義聚類(lèi)個(gè)數(shù),但在大多數(shù)情況下,研究人員并不能確切的知道需要聚幾類(lèi)。
2018年Debajyoti?Sinha等人在Nucleic?Acids?Research上提出的名為dropClust的聚類(lèi)算法。這個(gè)算法是利用局域敏感哈希技術(shù),開(kāi)發(fā)的一種適用于大規(guī)模單細(xì)胞RNA數(shù)據(jù)的聚類(lèi)算法,其在運(yùn)行時(shí)間和效率上顯著優(yōu)于其他聚類(lèi)算法。
2018年Andrew?Butler等人在Nature?Biotechnology發(fā)表的Seurat工具,是現(xiàn)在單細(xì)胞分析中使用最廣泛的工具之一,其中的聚類(lèi)分析使用的是SNN-Cliq圖聚類(lèi)的改進(jìn)版。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110459530.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 單細(xì)胞表現(xiàn)型數(shù)據(jù)庫(kù)系統(tǒng)和搜索引擎
- 活體單細(xì)胞拉曼分析平臺(tái)數(shù)字控制系統(tǒng)和方法
- 單細(xì)胞捕獲轉(zhuǎn)移系統(tǒng)及單細(xì)胞捕獲轉(zhuǎn)移方法
- 高通量單細(xì)胞轉(zhuǎn)錄組與基因突變整合分析方法
- 基于交變滯慣力打印的單細(xì)胞水平相互作用模型構(gòu)建方法
- 單細(xì)胞蛋白生產(chǎn)菌及其應(yīng)用
- miRNA因果調(diào)控網(wǎng)絡(luò)識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種單細(xì)胞分選裝置和單細(xì)胞分選方法
- 一種單細(xì)胞培養(yǎng)系統(tǒng)及單細(xì)胞培養(yǎng)方法
- 流體捕獲芯片、單細(xì)胞捕獲轉(zhuǎn)移系統(tǒng)與單細(xì)胞分析方法
- 磁轉(zhuǎn)錄方法及磁轉(zhuǎn)錄裝置
- 媒體轉(zhuǎn)錄控制方法及使用上述方法的嵌入式系統(tǒng)
- 使用轉(zhuǎn)錄門(mén)戶組件隨需轉(zhuǎn)錄語(yǔ)音的方法和系統(tǒng)
- 應(yīng)用順式作用核酶對(duì)轉(zhuǎn)錄進(jìn)行調(diào)節(jié)
- 用于基因治療的載體
- 簡(jiǎn)化聽(tīng)寫(xiě)式語(yǔ)音文本系統(tǒng)的轉(zhuǎn)錄的復(fù)制粘貼的方法和系統(tǒng)
- 一種RNA反轉(zhuǎn)錄擴(kuò)增方法
- 基于人工智能的跨語(yǔ)種語(yǔ)音轉(zhuǎn)錄方法、設(shè)備及可讀介質(zhì)
- 一種mRNA的制備方法及其在腫瘤治療中的應(yīng)用
- 前列腺癌細(xì)胞LNCaP的FASN基因長(zhǎng)短不同轉(zhuǎn)錄本的獲取及定量方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





