[發(fā)明專利]一種基于近鄰穩(wěn)定性的代謝組學數據缺失值填充方法有效
| 申請?zhí)枺?/td> | 201910284004.X | 申請日: | 2019-04-10 |
| 公開(公告)號: | CN110097920B | 公開(公告)日: | 2022-09-20 |
| 發(fā)明(設計)人: | 羅霄;李超;林曉惠 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G01N27/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉;劉秋彤 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 近鄰 穩(wěn)定性 代謝 數據 缺失 填充 方法 | ||
本發(fā)明提供一種基于近鄰穩(wěn)定性的代謝組學數據缺失值填充方法,屬于代謝組學數據分析技術領域。該方法的核心技術是度量含缺失代謝物的樣本的k個最近鄰樣本在相應代謝物上含量的穩(wěn)定性,基于穩(wěn)定的近鄰樣本,對不同類型的缺失值分別采用不同的策略進行填充。本發(fā)明對含有缺失值的代謝組學數據填充效果較好,對后續(xù)數據分析,代謝標志物選擇等具有重要意義。
技術領域
本發(fā)明屬于代謝組學數據分析技術領域,涉及一種基于近鄰穩(wěn)定性的代謝組學數據缺失值填充方法,是一種考慮代謝物缺失值的缺失類型,樣本之間的相似關系以及近鄰樣本穩(wěn)定性的代謝組學數據缺失值填充方法。
背景技術
代謝組學通過對生物體內的分子代謝物進行系統的定性和定量的研究,來尋找與生理病理變化相關的代謝物。對不同的代謝物進行定性和定量的方法包括質譜分析法和核磁共振譜等。通常,由質譜分析法獲取的代謝組學數據中存在很多缺失值。這些缺失值主要來源于兩個方面:一是數據采集過程中或儀器操作中引入的隨機誤差導致樣本中某些代謝物含量沒有被檢測出來,這種數據缺失類型稱之為隨機缺失;二是代謝物在樣本中的含量低于質譜分析儀器的檢測限而沒有被檢測出來,這種數據缺失類型稱之為非隨機缺失。例如,代謝物膽汁酸在人體中濃度變化很大,由于儀器檢測限的存在,獲取的代謝組學數據中膽汁酸代謝物在很多樣本中可能為缺失值。然而,常規(guī)的數據分析方法只適用于處理完整的不含缺失值的數據矩陣。如果直接將代謝組學數據中含缺失值的代謝物或樣本刪去,則會丟失很多有價值的信息。因此利用簡單且高效的方法填充缺失數據是代謝組學數據分析中一項重要的任務,這對后續(xù)數據分析,代謝標志物選擇等具有重要意義。
一些代謝組學數據缺失值處理方法使用零值,代謝物含量的最小值,最小值的一半或中位數等填充對應代謝物的缺失值。這些方法較為簡單,但是容易對后續(xù)數據分析產生較大影響。基于k最近鄰的缺失值填充算法是處理代謝組學數據中缺失值常用的一種方法。該方法認為樣本之間相似性越大,它們的代謝物之間含量偏差越小。如果樣本s的代謝物m的含量缺失,基于k最近鄰的缺失值填充算法根據相似性度量尋找與樣本s的k個最近鄰樣本(如果k個最近鄰樣本對應代謝物m的含量缺失,則用后續(xù)近鄰替代),然后利用k個最近鄰樣本的代謝物m的含量的加權平均值來填充樣本s的缺失代謝物m的含量。基于k最近鄰的缺失值填充算法能較好的處理代謝組學數據中隨機缺失類型的數據,但是對非隨機缺失類型數據填充效果不夠理想。
本方法提出了一種基于近鄰穩(wěn)定性的代謝組學數據缺失值填充方法。該方法根據樣本之間的歐式距離確定含缺失代謝物的樣本的k個最近鄰樣本,評價近鄰樣本的穩(wěn)定性,基于穩(wěn)定的近鄰樣本對不同類型的缺失值采用相應的策略進行填充。
發(fā)明內容
本發(fā)明的目的是填充代謝組學數據中的缺失值。該方法的核心技術是度量含缺失代謝物的樣本的k個最近鄰樣本在相應代謝物上含量的穩(wěn)定性,基于穩(wěn)定的近鄰樣本,對不同類型的缺失值分別采用不同的策略進行填充。
為了實現上述目標,本發(fā)明采用的技術方案如下:
一種基于近鄰穩(wěn)定性的代謝組學數據缺失值填充方法,步驟如下:
使用質譜分析法檢測生物樣本中的代謝成分,并獲取代謝成分的圖譜數據,采用峰識別、峰匹配、歸一化等預處理操作對圖譜數據進行分析,并確定樣本中代謝物含量,獲得代謝組學數據。
用n表示代謝組學數據中樣本的數量,p表示樣本中代謝物的數量,xi=(xi1,xi2,…,xip)表示第i個樣本中的p個代謝物的含量組成的值向量,1≤i≤n。當代謝組學數據中樣本xi中代謝物m的含量是缺失的(xim為缺失值),1≤m≤p,則通過以下步驟對缺失值xim進行填充:
(1)計算樣本xi與樣本xj(1≤i≠j≤n)的歐式距離d(xi,xj),公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910284004.X/2.html,轉載請聲明來源鉆瓜專利網。





