[發明專利]二維分布結構判定的單細胞轉錄組測序數據聚類推薦方法有效
| 申請號: | 202110061290.0 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112750502B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 李敏;田宇;鄭瑞清 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B35/00;G16B30/00;G06K9/62 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 熊開蘭 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 二維 分布 結構 判定 單細胞 轉錄 序數 類推 方法 | ||
1.一種基于二維分布結構判定的單細胞轉錄組測序數據聚類推薦方法,其特征在于,包括以下步驟:
步驟1,獲取N個細胞的單細胞轉錄組測序數據,通過統計基因在每個細胞中的表達量得到基因表達矩陣,并進行過濾和標準化處理;然后通過均勻流形近似和投影構建二維特征矩陣,并將二維特征矩陣進行線性歸一化;
步驟2,根據歸一化后的二維特征矩陣,計算每兩個細胞間的歐式距離,并建立基于距離矩陣的細胞最小生成樹;
步驟3,通過自適應閾值對構建的細胞最小生成樹進行切割,并以切割后構成的簇的平衡性來確定單細胞轉錄組測序數據的二維分布結構;所述自適應閾值根據細胞數N定義得到;
步驟4,根據數據二維分布結構的差異并結合層次聚類和譜聚類的方法特性,對計算確定具有模糊簇間邊界和連續二維分布結構的數據,推薦并使用層次聚類算法進行下游聚類分析,而對計算確定具有明顯簇間邊界和分塊二維分布結構的數據,推薦并使用譜聚類算法進行下游聚類分析。
2.根據權利要求1所述的方法,其特征在于,所述步驟1中,對二維特征矩陣進行線性歸一化的公式為:
其中,Y′表示通過均勻流形近似和投影構建的二維特征矩陣,Ymax和Ymin分別表示初始基因表達矩陣中表達量的最大值和最小值。
3.根據權利要求1所述的方法,其特征在于,所述步驟2中,對歸一化后的二維特征矩陣計算細胞間距離的公式為:
其中,dij表示細胞i到細胞j之間的歐式距離,yim和yjm分別為細胞i和細胞j的第m個基因的表達量。
4.根據權利要求1所述的方法,其特征在于,所述步驟2中,基于距離矩陣,通過快速EMST雙樹Boruvka算法,建立基于距離矩陣的細胞最小生成樹。
5.根據權利要求1所述的方法,其特征在于,所述步驟3中,根據細胞數N定義自適應閾值的公式為:
Threshold=λ×pCR
其中,Threshold為定義的自適應閾值,λ=5為默認常數值,pCR為單個細胞分辨率,且
6.根據權利要求1所述的方法,其特征在于,所述步驟3中,若細胞最小生成樹中所有邊長均小于閾值,則確定數據為具有模糊簇間邊界和連續的二維分布結構;反之若存在大于閾值的樹邊,則將滿足條件的邊進行切割并計算重新構成的簇間的平衡性,當最大簇與次大簇中細胞的數量比超過預設比例時,確定數據為具有模糊簇間邊界和連續的二維分布結構,否則將數據確定為具有明顯簇間邊界和分塊的二維分布結構。
7.根據權利要求6 所述的方法,其特征在于,所述預設比例為8:2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110061290.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:腰椎保護裝置
- 下一篇:圖像配準方法、裝置、計算機設備和存儲介質





