[發(fā)明專利]診斷急性疾病的小分子代謝物生物標(biāo)志物及其篩選方法和應(yīng)用在審
| 申請(qǐng)?zhí)枺?/td> | 202011170219.8 | 申請(qǐng)日: | 2020-10-28 |
| 公開(公告)號(hào): | CN112748191A | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 李琰;威爾米澤·洛薩·奧托·愛德華德 | 申請(qǐng)(專利權(quán))人: | 深圳脈圖精準(zhǔn)技術(shù)有限公司 |
| 主分類號(hào): | G01N30/02 | 分類號(hào): | G01N30/02;G01N30/06;G01N30/34;G01N30/36;G01N30/72;G01N30/86;G16B40/20;G16H50/20 |
| 代理公司: | 北京尚誠知識(shí)產(chǎn)權(quán)代理有限公司 11322 | 代理人: | 葉占洋;魯兵 |
| 地址: | 518057 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 診斷 急性 疾病 分子 代謝物 生物 標(biāo)志 及其 篩選 方法 應(yīng)用 | ||
1.用于診斷急性疾病的小分子代謝物生物標(biāo)志物的篩選方法,其特征在于,包括以下步驟:
1.1、對(duì)患病組和對(duì)照組每一樣本中一組小分子代謝物進(jìn)行測(cè)定,將測(cè)定數(shù)據(jù)歸集為對(duì)照代謝數(shù)據(jù)集(CK-S)和患病代謝數(shù)據(jù)集(LC-S),并將該兩數(shù)據(jù)集按樣本以設(shè)定的比例分為第一訓(xùn)練數(shù)據(jù)集(TS)和第一測(cè)試數(shù)據(jù)集(VS);
1.2、對(duì)步驟1.1中所述第一訓(xùn)練數(shù)據(jù)集(TS)中的對(duì)照代謝數(shù)據(jù)集(CK-S)和患病代謝數(shù)據(jù)集(LC-S)進(jìn)行統(tǒng)計(jì)分析,篩選出患病組和對(duì)照組之間存在顯著差異的代謝物,將第一訓(xùn)練數(shù)據(jù)集(TS)中這些顯著差異的代謝物的數(shù)據(jù)歸集為第二訓(xùn)練數(shù)據(jù)集(TS1),并將所述第一測(cè)試數(shù)據(jù)集(VS)中對(duì)應(yīng)這些代謝物的數(shù)據(jù)歸集為第二測(cè)試數(shù)據(jù)集(VS1);
1.3、將步驟1.2中所述第二訓(xùn)練數(shù)據(jù)集(TS1)輸入到隨機(jī)森林模型(M0)中;
1.4、訓(xùn)練步驟1.3的模型,調(diào)整超參數(shù),使模型在第二訓(xùn)練數(shù)據(jù)集(TS1)上的AUC(AreaUnder Curve)最高,固定該超參數(shù)獲得一訓(xùn)練模型(M1);
1.5、利用所述第二測(cè)試數(shù)據(jù)集(VS1)檢測(cè)所述訓(xùn)練模型(M1),調(diào)整模型超參數(shù)和訓(xùn)練策略,重新訓(xùn)練,以使模型在第二訓(xùn)練數(shù)據(jù)集(TS1)和第二測(cè)試數(shù)據(jù)集(VS1)上均有很高的AUC,固定具有高AUC的模型參數(shù)獲得一篩選模型(M2);
1.6、根據(jù)所述篩選模型(M2),識(shí)別出N個(gè)變量重要性較高的代謝物作為診斷急性疾病的小分子代謝物生物標(biāo)志物;N為正整數(shù)。
2.用于診斷急性疾病的小分子代謝物生物標(biāo)志物的篩選方法,其特征在于,包括以下步驟:
1.1)、對(duì)患病組和對(duì)照組每一樣本中一組小分子代謝物進(jìn)行測(cè)定,對(duì)數(shù)據(jù)進(jìn)行包括降低特征數(shù)、填充缺失值,數(shù)據(jù)均一化在內(nèi)的預(yù)處理,將預(yù)處理后的數(shù)據(jù)歸集為對(duì)照代謝數(shù)據(jù)集(CK)和患病代謝數(shù)據(jù)集(GC),并將該兩數(shù)據(jù)集按樣本以設(shè)定的比例(0.7:0.3)分別分為兩個(gè)訓(xùn)練數(shù)據(jù)集(TS_CKTS_GC)和兩個(gè)測(cè)試數(shù)據(jù)集(VS_CKVS_GC);
1.2)、將兩個(gè)訓(xùn)練數(shù)據(jù)集(TS_CKTS_GC)合并成訓(xùn)練數(shù)據(jù)集(TS),以及將兩個(gè)測(cè)試數(shù)據(jù)集(VS_CKVS_GC)合并將成測(cè)試數(shù)據(jù)集(VS);
1.3)、將步驟1.2)中所述訓(xùn)練數(shù)據(jù)集(TS)輸入到隨機(jī)森林模型(M0)中;
1.4)、訓(xùn)練步驟1.3)的模型,調(diào)整超參數(shù),使模型在訓(xùn)練數(shù)據(jù)集(TS)上的AUC(AreaUnder Curve)最高,固定該超參數(shù)獲得一訓(xùn)練模型(M1);
1.5)、利用所述測(cè)試數(shù)據(jù)集(VS)檢測(cè)所述訓(xùn)練模型(M1),調(diào)整模型超參數(shù)和訓(xùn)練策略,重新訓(xùn)練,以使模型在訓(xùn)練數(shù)據(jù)集(TS)和測(cè)試數(shù)據(jù)集(VS)上均有很高的AUC,固定具有高AUC的模型參數(shù)獲得一篩選模型(M2);
1.6)、根據(jù)所述篩選模型(M2),識(shí)別出N個(gè)變量重要性較高的代謝物作為診斷急性疾病的小分子代謝物生物標(biāo)志物;N為正整數(shù)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,步驟1.1或1.1)中所述樣本包括血液、血清、血漿、尿液、唾液、汗液、脊髓液、呼吸物和糞便等。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述篩選方法中還涉及以下分析方法:典型相關(guān)分析、普通最小二乘回歸分析、偏最小二乘分析、主成分回歸分析、嶺回歸分析或最小角度回歸分析,并結(jié)合交叉驗(yàn)證分析。
5.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述隨機(jī)森林模型可以擴(kuò)展為其他非線性模型和監(jiān)督學(xué)習(xí)方法。
6.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述超參數(shù)包括決策樹的個(gè)數(shù)(n_estimators)、CART樹做劃分時(shí)對(duì)特征的評(píng)價(jià)標(biāo)準(zhǔn)(criterion)、最大特征數(shù)(max_features)、決策樹最大深度(max_depth)、內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)(min_samples_split)、葉子節(jié)點(diǎn)最少樣本數(shù)(min_samples_leaf)、葉子節(jié)點(diǎn)最小的樣本權(quán)重和(min_weight_fraction_leaf)、最大葉子節(jié)點(diǎn)數(shù)(max_leaf_nodes)、節(jié)點(diǎn)劃分最小不純度(min_impurity_split)中的任一個(gè)或其組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳脈圖精準(zhǔn)技術(shù)有限公司,未經(jīng)深圳脈圖精準(zhǔn)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011170219.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 疾病風(fēng)險(xiǎn)預(yù)測(cè)方法以及執(zhí)行該方法的裝置
- 利用疾病與人體部位的映射進(jìn)行疾病信息可視化的方法
- 疾病術(shù)語的詞處理方法、裝置及計(jì)算機(jī)設(shè)備
- 一種疾病名稱標(biāo)準(zhǔn)化規(guī)范數(shù)據(jù)庫及其建立方法
- 疾病預(yù)測(cè)方法、裝置、終端及存儲(chǔ)介質(zhì)
- 疾病風(fēng)險(xiǎn)預(yù)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 疾病信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 疾病的層級(jí)關(guān)系處理方法、裝置及電子設(shè)備
- 一種基于復(fù)雜網(wǎng)絡(luò)的疾病進(jìn)展路徑挖掘方法
- 知識(shí)圖譜的構(gòu)建和使用方法、裝置和介質(zhì)





