[發明專利]一種基于單細胞轉錄組測序的細胞亞群注釋方法有效
| 申請號: | 202110016630.8 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112700820B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 范文濤;王勇斯;張盼玉;溫韻潔;何丹 | 申請(專利權)人: | 廣州華銀健康醫療集團股份有限公司 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B40/00;G16B50/00 |
| 代理公司: | 廣州瑞之凡知識產權代理事務所(普通合伙) 44514 | 代理人: | 黃愛君 |
| 地址: | 510663 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 單細胞 轉錄 組測序 細胞 注釋 方法 | ||
1.一種基于單細胞轉錄組測序的細胞亞群注釋方法,其特征在于:包括如下步驟:
S1. 10x barcode UMI識別:10x genomics平臺建庫的測序下機數據,為fastq序列,同一ID號的fastq序列包括3部份:barcode + UMI + mRNA序列,使用軟件cellranger count,通過barcode序列區別序列的來源細胞,通過UMI序列對基因進行表達定量,通過3’端mRNA序列用于基因的鑒定;
S2. 比對基因組:采用STAR算法,將測序得到的fastq序列比對參考基因組上,將測得的序列定位到相應的基因上;
S3. 基因表達譜構建;
S4. 低質量細胞過濾和數據均一化:基于細胞表達的基因數量及單個細胞中線粒體基因數目進行細胞過濾,過濾使用軟件R語言的Seurat 包,去除低質量細胞后,使用Seurat軟件的“Normalization”函數的LogNormalize方法,進行表達量均一化;
S5. 細胞群體聚類:1) 通過主成分降維分析,減少變量然后利用均一化后的表達量值進行PCA分析,從PCA分析結果中選取前10個主成分用于后續的聚類和分群分析;2) 聚類和分群分析:Seurat軟件使用基于圖論的聚類算法對細胞進行聚類和分群;
S6. Marker 基因提取:Seurat 通過bimod似然比統計檢驗對不同細胞群體差異表達基因進行分析,篩選不同細胞群體中表達上調的基因,表達量顯著較其它亞群都高的基因作為該細胞亞群的Marker基因;
S7. 細胞注釋:整合SingleR的表達量數據集、CellMarker細胞Marker基因以及文獻收集的細胞Marker基因,用程序GeneMarker_Annot.umap.pl或GeneMarker_Annot.tsne.pl進行細胞亞群的注釋;
所述步驟S3中的基因表達譜構建包括如下步驟:1)數據的整合和數據量均一化:涉及多個文庫的樣本時,在進一步的分析前需進行多樣本數據的整合和數據量均一化,使所有細胞所有基因擁有統一的基因UMI豐度信息;2)測序數據均一化:以測序深度較低的樣本為基準,從測序深度較高的樣本中隨機抽取reads,直到所有樣本中細胞的平均測序量相同或基本相同;3)基因表達量定量:樣本整合并經過測序數據均一化后,不做細胞過濾,基于每個細胞中每個基因mapping到的UMI條數進行基因表達量定量;
所述SingleR的表達量數據集整合方法包括:經過步驟S1-S5,得到細胞亞群的分群結果作為輸入,用R語言進行讀取,使用R語言的SingleR包,使用SingleR提供的基因表達數據,根據基因表達的模式對細胞亞群進行鑒定,然后使用Seurat的RenameIdents方法進行注釋,并最終輸出細胞注釋的結果圖;
所述CellMarker細胞Marker基因以及文獻收集的細胞Marker基因整合方法包括:經過步驟S1-S6,得到細胞亞群的分群結果,及各細胞亞群的分群的Marker 基因,并將從CellMarker數據庫或文獻收錄的細胞Marker基因整理的參考表格作為輸入,判斷每個細胞亞群的Marker基因在參考細胞的Marker基因的覆蓋情況。
2.根據權利要求1所述的基于單細胞轉錄組測序的細胞亞群注釋方法,其特征在于:所述步驟S4中,低質量細胞包括基因數目超過2500或低于200的細胞、單個細胞中線粒體基因數目占比超過5%的細胞。
3.根據權利要求1至2中任一項所述的基于單細胞轉錄組測序的細胞亞群注釋方法,其特征在于:所述步驟S5中,聚類和分群分析包括如下步驟:
a) 構建細胞間的聚類關系:利用顯著的主成分構建基于歐式距離的KNN聚類關系;
b) 優化細胞間聚類關系距離的權重值:利用Jaccard相似性優化細胞間距離的權重值;
c) 聚類和分群:通過基于共享最近鄰居模塊優化的聚類算法識別細胞聚類,即首先計算k-最近鄰并構造SNN關系,然后優化模塊化功能以確定集群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華銀健康醫療集團股份有限公司,未經廣州華銀健康醫療集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110016630.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種裝配式橋墩及其施工工藝
- 下一篇:一種雙級壓差式鉆井泵活塞總成





