[發明專利]基于IS聯合SVR的大規模組學數據校正方法及系統在審
| 申請號: | 202210120022.6 | 申請日: | 2022-01-29 |
| 公開(公告)號: | CN114705766A | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 陳艷華;丁賢;余文夢;再帕爾·阿不力孜;張瑞萍 | 申請(專利權)人: | 中央民族大學;中國醫學科學院藥物研究所 |
| 主分類號: | G01N30/02 | 分類號: | G01N30/02;G01N30/72;G01N30/86;G06K9/62;G06N20/10;G16B40/20 |
| 代理公司: | 北京卓愛普專利代理事務所(特殊普通合伙) 11920 | 代理人: | 王玉松;劉青 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 is 聯合 svr 大規模 數據 校正 方法 系統 | ||
1.一種基于IS聯合SVR的大規模組學數據校正方法,所述數據為生物代謝組學數據,所述生物代謝組學數據包括待測樣品的液相色譜-質譜數據或氣相色譜-質譜數據,所述生物代謝組學數據校正方法包括:
1)將QC樣本插入實際樣本分析序列中并進行基于色譜-質譜方法的代謝組學分析,獲取QC樣本和實際樣本的生物代謝學數據,所述生物代謝數據包括含有各樣品的各組峰面積、保留時間和質荷比信息的數據;
2)對所述生物代謝組學數據進行預處理和標準化處理,得到二維矩陣數據;
3)建立IS標度化和支持向量回歸豐度預測模型:使用QC樣本數據作為訓練數據,根據代謝物在QC樣本q中峰面積的相對標準偏差參數的變化選擇最佳IS,并判斷是否需要執行最佳內標校正標度化,然后根據IS校正后QC樣本的峰面積變化與進樣順序、批次和強相關的其他代謝物之間的關系,擬合峰面積的支持向量回歸預測模型,根據這個模型預測數據中的隨機系統誤差;
4)使用實際樣本數據作為測試數據,把實際樣本s的代謝物峰面積參數代入到上一步驟在QC樣本數據上建立的IS標度化和支持向量回歸豐度預測模型中,去除實際樣本數據中的隨機系統誤差,最后乘上代謝物在所有QC樣本的中位數,獲得每個實際樣本s中計算歸一化后的代謝物峰面積,實現代謝組的系統誤差校正。
2.如權利要求1所述的基于IS聯合SVR的大規模組學數據校正方法,其特征在于,所述步驟2)所述預處理包括:
2.1)將所述色譜-質譜數據原始數據轉化為mz XML格式數據;
2.2)使用XCMS軟件包、CAMERA軟件包進行峰識別、峰過濾、峰對齊和注釋,最后導出峰面積的二維數據矩陣;
2.3)對步驟2.2)得到的數據進行格式檢查,將數據轉換成滿足后續程序運行要求的格式。
3.如權利要求1所述的基于IS聯合SVR的大規模組學數據校正方法,其特征在于,所述步驟(3)中根據下述公式(1)建立IS標度化和支持向量回歸豐度預測模型:
具體包括:
3.1)通過最佳IS選擇后的相對標準偏差變化以判斷是否執行IS校正,執行如下公式(2)的條件判斷篩選:
其中,ISb,q表示代謝物i的最佳ISb的峰面積;表示代謝物i的最佳ISb在所有樣本中的平均峰面積;
如果滿足IS標度化條件,可設為與ISb,q的比值;否則,設為1;
3.2)應用代謝特征在相鄰兩個QC樣本中的響應強度值,構建代謝特征的支持向量回歸模型ωΦ,即ωΦ(m,B,inj);其中,B、inj和m分別表示批次效應、進樣順序和其他代謝物的影響。
4.如權利要求3所述的基于IS聯合SVR的大規模組學數據校正方法,其特征在于,所述步驟3.1)中的IS標度化方法具體為:
3.1.1)對QC樣本數據中峰面積積分獲得其相對標準偏差值,當峰面積在QC樣本中相對標準偏差小于20%,判斷是否需要進行最佳內標校正;如是,不進行最佳內標校正,如否,至步驟3.1.2);
3.1.2)對每個代謝物的內標IS逐一歸一化,獲得相對峰面積,并計算峰面積的相對標準偏差值是否變小;如是,不進行最佳內標校正,如否,至步驟3.1.3);
3.1.3)選擇使相對峰面積減小幅度最大的內標的歸一化結果,作為最終的最佳IS歸一化結果。
5.如權利要求1所述的基于IS聯合SVR的大規模組學數據校正方法,其特征在于,步驟3.2)中構建的支持向量回歸模型ωΦ為SVR(C、gamma、k),其中k為相關性最強的代謝物數目,C為正則化參數、gamma為核函數系數;其算法內置基于5折交叉驗證的網格調參策略。
6.如權利要求5所述的基于IS聯合SVR的大規模組學數據校正方法,其特征在于,所述基于5折交叉驗證的網格調參策略的方法包括:
根據5折交叉驗證將QC樣本劃分為測試集和驗證集;
通過預先設定上述三個核心參數(C、gamma、k)的范圍,再運行測試N個不同的參數組合;
得到N組結果,并將最佳結果對應的參數作為推薦的默認參數輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中央民族大學;中國醫學科學院藥物研究所,未經中央民族大學;中國醫學科學院藥物研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210120022.6/1.html,轉載請聲明來源鉆瓜專利網。





