[發明專利]一種腸道菌群大數據的并行識別分析方法及系統有效
| 申請號: | 202210917101.X | 申請日: | 2022-08-01 |
| 公開(公告)號: | CN114999574B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 衡益;王晨;萬北宸;韓熠南 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G06K9/62;G16B40/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 劉俊 |
| 地址: | 510315 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 腸道 菌群大 數據 并行 識別 分析 方法 系統 | ||
1.一種腸道菌群大數據的并行識別分析方法,其特征在于,包括以下步驟:
獲取腸道菌群樣本的相對豐度數據并以子數據集進行數據劃分,得到子數據集相應的菌群相對豐度矩陣;其中,根據每一子數據集中腸道菌群樣本的菌群相對豐度數據,以腸道菌群樣本的菌類為行,以腸道菌群樣本的樣本個體為列,構建菌群相對豐度矩陣Am×n;
利用貝奧武夫集群并利用R語言的parallel包并行執行以下識別分析步驟:
1)對所述菌群相對豐度矩陣進行預處理,去除所述菌群相對豐度矩陣中的缺失數據和空值數據;
2)根據經過預處理的菌群相對豐度矩陣執行熱聚類分析,輸出熱聚類圖;
3)根據經過預處理的菌群相對豐度矩陣執行相關性分析,輸出相關性網絡圖;
4)根據經過預處理的菌群相對豐度矩陣執行特殊菌類識別,輸出特殊菌類識別結果;其中,根據經過預處理的菌群相對豐度矩陣并行執行特殊菌類識別的步驟包括:
根據經過預處理的子數據集k對應的菌群相對豐度矩陣對單個樣本的同一菌類的相對豐度數據進行求和,得到mk'個菌類在樣本中的豐度分布向量
根據相關性分析結果,對單個樣本的同一菌類的相關性系數進行求和,得到mk'個菌類在樣本中的影響程度向量
根據豐度分布向量與影響程度向量的比值得到樣本中所有菌類的特殊值,并對菌群相對豐度矩陣相應樣本中的mk'個菌類根據特殊值的大小進行降序排序,取排序前q個菌類作為特殊菌類識別結果進行輸出;其中k=1,2,...,h;mk'為經過預處理的矩陣的行向量數量,n為腸道菌群樣本的樣本個體總數;
根據經過預處理的菌群相對豐度矩陣執行優勢菌群分析和菌群多樣性分析,生成腸道菌群相對豐度分布圖和多樣性分析圖;
其中,利用集群并基于parallel包進行熱聚類分析、相關性分析和特殊菌類識別的并行加速運算處理的步驟包括:
1)設置用于指定啟動的節點數量或節點命名的spec參數;
2)設置并行參數和通用函數;所述并行參數包括存儲為k維列表對象的腸道菌群樣本數據集W,所述通用函數包括用于執行熱聚類分析、相關性分析和特殊菌類識別的函數;
3)啟動SOCK集群,利用clusterMap函數進行并行計算;計算完成后關閉集群,并以列表格式存儲并行計算結果。
2.根據權利要求1所述的腸道菌群大數據的并行識別分析方法,其特征在于,獲取腸道菌群樣本的相對豐度數據并以子數據集進行數據劃分的步驟包括:
根據獲取的腸道菌群樣本數據集W中的h個樣本組別劃分為h個子數據集;
根據每一子數據集中腸道菌群樣本的菌群相對豐度數據,以腸道菌群樣本的菌類為行,以腸道菌群樣本的樣本個體為列,構建菌群相對豐度矩陣Am×n;其表達式如下:
式中,aij表示菌類i在樣本j中的相對豐度數據,其中,i=1,2,...,m;j=1,2,...,n;m為腸道菌群樣本的菌類總數,n為腸道菌群樣本的樣本個體總數;
則腸道菌群樣本數據集W劃分為h個子數據集相應的菌群相對豐度矩陣并將其存儲為h維的R列表對象。
3.根據權利要求2所述的腸道菌群大數據的并行識別分析方法,其特征在于,對所述菌群相對豐度矩陣進行預處理的步驟包括:
對子數據集k對應的菌群相對豐度矩陣進行描述性統計,以矩陣的行向量為單位得到mk組描述性統計結果,生成關于矩陣的描述性統計匯總表;其中,k=1,2,...,h;
根據所述描述性統計結果,對矩陣中方差或標準差為0的組別相應的行向量進行刪除,得到經過預處理的矩陣其中,矩陣中的行向量數mk'≤mk。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210917101.X/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





