[發(fā)明專利]一種生物標(biāo)志物的篩選方法及其相關(guān)應(yīng)用在審
| 申請?zhí)枺?/td> | 202210770641.X | 申請日: | 2022-06-30 |
| 公開(公告)號: | CN114974432A | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 張陳陳;梁雅俊;朱瑞娟;蘭周;常曌;張東亞;蔣先芝 | 申請(專利權(quán))人: | 慕恩(廣州)生物科技有限公司 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B50/30;G16B30/10 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 顏歡 |
| 地址: | 510000 廣東省廣州市高新技*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 生物 標(biāo)志 篩選 方法 及其 相關(guān) 應(yīng)用 | ||
1.一種生物標(biāo)志物的篩選方法,其特征在于,其包括以下步驟:
S1:建立代表菌株基因組序列庫:對獲得的基因組序列庫中的序列按照設(shè)定閾值進(jìn)行聚類,獲得不同株水平和/或種水平的菌株簇;篩選獲得每個(gè)菌株簇的代表菌株序列以建立代表菌株基因組序列庫;
S2:建立代謝產(chǎn)物基因簇序列庫:對獲得的基因組序列庫的序列進(jìn)行基因注釋并預(yù)測每個(gè)菌株和/或每個(gè)菌種的代謝產(chǎn)物基因簇,通過對代謝產(chǎn)物基因簇進(jìn)行相似度聚類以獲得基因簇家族,將基因簇家族合并獲得代謝產(chǎn)物基因簇序列庫;步驟S1和步驟S2的操作順序可以互換或步驟S1和步驟S2可以同時(shí)進(jìn)行;
S3:獲取樣本的宏基因組測序數(shù)據(jù),將宏基因組測序數(shù)據(jù)分別與步驟S1所述的代表菌株基因組序列庫、步驟S2所述的代謝產(chǎn)物基因簇序列庫進(jìn)行比對,獲得每個(gè)菌株和/或每個(gè)菌種的相對豐度以及代謝產(chǎn)物的相對豐度;
S4:篩選顯著差異菌株和/或菌種以及顯著差異代謝產(chǎn)物;
S5:將菌株或菌種、及其代謝產(chǎn)物均具有顯著差異的候選菌株或候選菌種(菌株)作為生物標(biāo)志物;
優(yōu)選地,將篩選獲得的生物標(biāo)志物作為構(gòu)建預(yù)測模型的指標(biāo),利用交叉驗(yàn)證的方法篩選出能夠有效預(yù)測的菌株或菌種作為最終的生物標(biāo)志物。
2.根據(jù)權(quán)利要求1所述的生物標(biāo)志物的篩選方法,其特征在于,在所述步驟S1中,所述設(shè)定閾值≥95%;優(yōu)選地,所述設(shè)定閾值≥99%;
優(yōu)選地,在所述S1步驟中,按照設(shè)定閾值≥99%獲得不同株水平的菌株簇,按照設(shè)定閾值≥95%獲得不同種水平的菌株簇時(shí),并獲得菌株簇的代表菌株;
優(yōu)選地,所述篩選獲得每個(gè)菌株簇的代表菌株序列以建立代表菌株基因組序列庫的步驟包括:對于每一菌株簇里的菌株,挑選基因序列長度最長的基因序列作為同一菌株簇的代表菌株序列;
優(yōu)選地,在所述S1和/或S2步驟中,獲得的基因組序列庫包括基因組數(shù)據(jù)庫和/或菌株數(shù)據(jù)庫;
優(yōu)選地,所述基因組數(shù)據(jù)庫包括UHGG數(shù)據(jù)庫、人腸道微生物基因組序列數(shù)據(jù)庫中的至少一種。
3.根據(jù)權(quán)利要求1所述的生物標(biāo)志物的篩選方法,其特征在于,步驟S2中,進(jìn)行基因注釋后,還包括對并對注釋的基因進(jìn)行分析,以預(yù)測每個(gè)菌株和/或每個(gè)菌種的代謝產(chǎn)物基因簇;
優(yōu)選地,步驟S2中,所述通過對代謝產(chǎn)物基因簇進(jìn)行相似度聚類以獲得基因簇家族的步驟包括(a)~(c)中任一項(xiàng):
(a)提取代謝產(chǎn)物基因簇的蛋白序列,根據(jù)蛋白序列之間的序列相似性對預(yù)測的代謝產(chǎn)物基因簇進(jìn)行冗余過濾,得到一個(gè)非冗余基因簇集合,根據(jù)設(shè)定的相似度閾值對非冗余基因簇集合中的代謝產(chǎn)物基因簇進(jìn)行聚類,以獲得所述基因簇家族;
(b)將相同代謝產(chǎn)物的基因簇合并為一個(gè)基因簇集合,選擇基因簇集合的代表基因簇;根據(jù)設(shè)定的相似度閾值對代表基因簇進(jìn)行聚類,以獲得所述基因簇家族;
(c)提取代謝產(chǎn)物基因簇的蛋白序列,根據(jù)蛋白序列之間的序列相似性對預(yù)測的代謝產(chǎn)物基因簇進(jìn)行冗余過濾,得到一個(gè)非冗余基因簇集合,對每個(gè)非冗余基因簇集合中的基因簇計(jì)算兩兩之間的距離,選擇距離值最小的基因簇作為此基因簇集合的代表基因簇,用于合并獲得所述代謝產(chǎn)物基因簇序列庫;
優(yōu)選地,在(b)項(xiàng)中,所述選擇基因簇集合的代表基因簇的步驟包括:對每個(gè)基因簇集合中的基因簇計(jì)算兩兩之間的距離,選擇距離值最小的基因簇作為此基因簇集合的代表基因簇,用于合并獲得所述代謝產(chǎn)物基因簇序列庫;
優(yōu)選地,所述相似度閾值≥0.3;
優(yōu)選地,進(jìn)行所述基因注釋的工具包括prokka;
優(yōu)選地,用于預(yù)測每個(gè)菌株或每個(gè)菌種的代謝產(chǎn)物基因簇的工具包括:gutsmash和/或antismash;
優(yōu)選地,所述S4步驟中,所述篩選顯著差異菌株及顯著差異代謝產(chǎn)物的步驟包括:針對每個(gè)隊(duì)列的數(shù)據(jù),將菌株和/或菌種的種類或其豐度具有顯著差異的作為顯著差異菌株,將代謝產(chǎn)物的種類及其豐度具有顯著差異的作為差異顯著代謝產(chǎn)物;
優(yōu)選地,在所述S5步驟中,當(dāng)存在多個(gè)隊(duì)列的數(shù)據(jù)時(shí),還包括計(jì)算菌株和/或菌種在不同隊(duì)列之間的異質(zhì)性,保留異質(zhì)性較小的候選菌株或菌種作為生物標(biāo)志物;
優(yōu)選地,所述異質(zhì)性較小的標(biāo)準(zhǔn)包括:I2<40%且P>0.1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于慕恩(廣州)生物科技有限公司,未經(jīng)慕恩(廣州)生物科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210770641.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





