[發(fā)明專利]一種生物標(biāo)志物的篩選方法及其相關(guān)應(yīng)用在審

申請?zhí)枺?/td>	202210770641.X	申請日：	2022-06-30
公開（公告）號：	CN114974432A	公開（公告）日：	2022-08-30
發(fā)明（設(shè)計(jì)）人：	張陳陳;梁雅俊;朱瑞娟;蘭周;常曌;張東亞;蔣先芝	申請（專利權(quán)）人：	慕恩（廣州）生物科技有限公司
主分類號：	G16B40/00	分類號：	G16B40/00;G16B50/30;G16B30/10
代理公司：	北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463	代理人：	顏歡
地址：	510000 廣東省廣州市高新技***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種生物標(biāo)志篩選方法及其相關(guān) 應(yīng)用
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種生物標(biāo)志物的篩選方法，其特征在于，其包括以下步驟：

S1:建立代表菌株基因組序列庫：對獲得的基因組序列庫中的序列按照設(shè)定閾值進(jìn)行聚類，獲得不同株水平和/或種水平的菌株簇；篩選獲得每個(gè)菌株簇的代表菌株序列以建立代表菌株基因組序列庫；

S2:建立代謝產(chǎn)物基因簇序列庫：對獲得的基因組序列庫的序列進(jìn)行基因注釋并預(yù)測每個(gè)菌株和/或每個(gè)菌種的代謝產(chǎn)物基因簇，通過對代謝產(chǎn)物基因簇進(jìn)行相似度聚類以獲得基因簇家族，將基因簇家族合并獲得代謝產(chǎn)物基因簇序列庫；步驟S1和步驟S2的操作順序可以互換或步驟S1和步驟S2可以同時(shí)進(jìn)行；

S3:獲取樣本的宏基因組測序數(shù)據(jù)，將宏基因組測序數(shù)據(jù)分別與步驟S1所述的代表菌株基因組序列庫、步驟S2所述的代謝產(chǎn)物基因簇序列庫進(jìn)行比對，獲得每個(gè)菌株和/或每個(gè)菌種的相對豐度以及代謝產(chǎn)物的相對豐度；

S4:篩選顯著差異菌株和/或菌種以及顯著差異代謝產(chǎn)物；

S5:將菌株或菌種、及其代謝產(chǎn)物均具有顯著差異的候選菌株或候選菌種(菌株)作為生物標(biāo)志物；

優(yōu)選地，將篩選獲得的生物標(biāo)志物作為構(gòu)建預(yù)測模型的指標(biāo)，利用交叉驗(yàn)證的方法篩選出能夠有效預(yù)測的菌株或菌種作為最終的生物標(biāo)志物。

2.根據(jù)權(quán)利要求1所述的生物標(biāo)志物的篩選方法，其特征在于，在所述步驟S1中，所述設(shè)定閾值≥95％；優(yōu)選地，所述設(shè)定閾值≥99％；

優(yōu)選地，在所述S1步驟中，按照設(shè)定閾值≥99％獲得不同株水平的菌株簇，按照設(shè)定閾值≥95％獲得不同種水平的菌株簇時(shí)，并獲得菌株簇的代表菌株；

優(yōu)選地，所述篩選獲得每個(gè)菌株簇的代表菌株序列以建立代表菌株基因組序列庫的步驟包括：對于每一菌株簇里的菌株，挑選基因序列長度最長的基因序列作為同一菌株簇的代表菌株序列；

優(yōu)選地，在所述S1和/或S2步驟中，獲得的基因組序列庫包括基因組數(shù)據(jù)庫和/或菌株數(shù)據(jù)庫；

優(yōu)選地，所述基因組數(shù)據(jù)庫包括UHGG數(shù)據(jù)庫、人腸道微生物基因組序列數(shù)據(jù)庫中的至少一種。

3.根據(jù)權(quán)利要求1所述的生物標(biāo)志物的篩選方法，其特征在于，步驟S2中，進(jìn)行基因注釋后，還包括對并對注釋的基因進(jìn)行分析，以預(yù)測每個(gè)菌株和/或每個(gè)菌種的代謝產(chǎn)物基因簇；

優(yōu)選地，步驟S2中，所述通過對代謝產(chǎn)物基因簇進(jìn)行相似度聚類以獲得基因簇家族的步驟包括(a)～(c)中任一項(xiàng)：

(a)提取代謝產(chǎn)物基因簇的蛋白序列，根據(jù)蛋白序列之間的序列相似性對預(yù)測的代謝產(chǎn)物基因簇進(jìn)行冗余過濾，得到一個(gè)非冗余基因簇集合，根據(jù)設(shè)定的相似度閾值對非冗余基因簇集合中的代謝產(chǎn)物基因簇進(jìn)行聚類，以獲得所述基因簇家族；

(b)將相同代謝產(chǎn)物的基因簇合并為一個(gè)基因簇集合，選擇基因簇集合的代表基因簇；根據(jù)設(shè)定的相似度閾值對代表基因簇進(jìn)行聚類，以獲得所述基因簇家族；

(c)提取代謝產(chǎn)物基因簇的蛋白序列，根據(jù)蛋白序列之間的序列相似性對預(yù)測的代謝產(chǎn)物基因簇進(jìn)行冗余過濾，得到一個(gè)非冗余基因簇集合，對每個(gè)非冗余基因簇集合中的基因簇計(jì)算兩兩之間的距離，選擇距離值最小的基因簇作為此基因簇集合的代表基因簇，用于合并獲得所述代謝產(chǎn)物基因簇序列庫；

優(yōu)選地，在(b)項(xiàng)中，所述選擇基因簇集合的代表基因簇的步驟包括：對每個(gè)基因簇集合中的基因簇計(jì)算兩兩之間的距離，選擇距離值最小的基因簇作為此基因簇集合的代表基因簇，用于合并獲得所述代謝產(chǎn)物基因簇序列庫；

優(yōu)選地，所述相似度閾值≥0.3；

優(yōu)選地，進(jìn)行所述基因注釋的工具包括prokka；

優(yōu)選地，用于預(yù)測每個(gè)菌株或每個(gè)菌種的代謝產(chǎn)物基因簇的工具包括：gutsmash和/或antismash；

優(yōu)選地，所述S4步驟中，所述篩選顯著差異菌株及顯著差異代謝產(chǎn)物的步驟包括：針對每個(gè)隊(duì)列的數(shù)據(jù)，將菌株和/或菌種的種類或其豐度具有顯著差異的作為顯著差異菌株，將代謝產(chǎn)物的種類及其豐度具有顯著差異的作為差異顯著代謝產(chǎn)物；

優(yōu)選地，在所述S5步驟中，當(dāng)存在多個(gè)隊(duì)列的數(shù)據(jù)時(shí)，還包括計(jì)算菌株和/或菌種在不同隊(duì)列之間的異質(zhì)性，保留異質(zhì)性較小的候選菌株或菌種作為生物標(biāo)志物；

優(yōu)選地，所述異質(zhì)性較小的標(biāo)準(zhǔn)包括：I2＜40％且P＞0.1。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于慕恩（廣州）生物科技有限公司，未經(jīng)慕恩（廣州）生物科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210770641.X/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】