[發明專利]一種基于特征基因的單細胞自動分類方法和裝置有效
| 申請號: | 202011567060.3 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112837754B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 黃智豪;周祺;康博熙 | 申請(專利權)人: | 北京百奧智匯科技有限公司 |
| 主分類號: | G16B40/30 | 分類號: | G16B40/30;G16B40/00;G16B50/10;G16B30/00;G16B45/00 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 鞏克棟 |
| 地址: | 100089 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 基因 單細胞 自動 分類 方法 裝置 | ||
1.一種基于特征基因的單細胞自動分類方法,其特征在于,所述方法包括:
將單細胞基因表達矩陣進行數據過濾、標準化和選擇高變異基因后,進行降維處理和聚類處理,獲得一個或多個細胞類群;
采用負二項分布,從細胞類群中篩選特征基因集;
將篩選的特征基因集與細胞類型數據庫進行比對,采用超幾何分布對比對結果進行檢驗統計,完成單細胞類型注釋和單細胞自動分類;
所述特征基因集的篩選方法包括:
根據細胞類群的基因表達矩陣獲取基因表達量平均數和基因表達量方差,將所述基因表達量平均數和基因表達量方差進行數學擬合,獲得細胞類群的負二項分布參數;
根據細胞類群的基因表達量平均數和負二項分布參數,計算負二項分布擬合的零表達比例,并根據初始零表達比例確定零表達比例閾值;
根據零表達比例閾值篩選細胞類群的特征基因集。
2.根據權利要求1所述的方法,其特征在于,所述基因表達量平均數和基因表達量方差進行數學擬合的公式為:
其中,μ為基因表達量平均數,為負二項分布參數,Var為基因表達量方差;
所述負二項分布擬合的零表達比例的計算公式為:
其中,μ為基因表達量平均數,為負二項分布參數,為負二項分布擬合的零表達比例;
所述零表達比例閾值為:
其中,α為初始零表達比例,為負二項分布參數,cutoff為零表達比例閾值。
3.根據權利要求1所述的方法,其特征在于,所述采用超幾何分布對比對結果進行檢驗統計包括:
采用超幾何分布計算比對結果的細胞類型匹配值,并對所述細胞類型匹配值進行Benjamini-Hochberg校正。
4.根據權利要求3所述的方法,其特征在于,所述細胞類型匹配值的計算公式為:
其中,N為所有基因數目,M為細胞類型數據庫基因數目,n為細胞類群的特征基因數目,k為匹配的基因數目,P為細胞類型匹配值。
5.根據權利要求1所述的方法,其特征在于,所述降維處理包括對選擇高變異基因后的單細胞基因表達矩陣進行奇異值分解和/或主成分分析。
6.根據權利要求1所述的方法,其特征在于,所述聚類處理包括采用Louvain算法處理降維的單細胞基因表達矩陣。
7.一種基于特征基因的單細胞自動分類裝置,其特征在于,所述裝置包括:
數據預處理模塊,用于將單細胞基因表達矩陣進行數據過濾和標準化;
高變異基因選擇模塊,用于根據過濾和標準化后的數據的方差值去除噪音數據;
降維處理模塊,用于對選擇高變異基因后的單細胞基因表達矩陣進行奇異值分解和/或主成分分析;
聚類處理模塊,用于基于Louvain算法處理降維的單細胞基因表達矩陣獲得一個或多個細胞類群;
細胞注釋模塊,包括特征基因集篩選單元和數據比對單元,用于基于負二項分布篩選細胞類群的特征基因集,并將篩選的特征基因集與細胞類型數據庫進行比對;
所述特征基因集篩選單元用于:
根據細胞類群的基因表達矩陣獲取基因表達量平均數和基因表達量方差,將所述基因表達量平均數和基因表達量方差進行數學擬合,獲得細胞類群的負二項分布參數;
根據細胞類群的基因表達量平均數和負二項分布參數,計算負二項分布擬合的零表達比例,并根據初始零表達比例確定零表達比例閾值;
根據零表達比例閾值篩選細胞類群的特征基因集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百奧智匯科技有限公司,未經北京百奧智匯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011567060.3/1.html,轉載請聲明來源鉆瓜專利網。





