[發(fā)明專利]一種基于分子地圖的生物樣本智能識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711123297.0 | 申請(qǐng)日: | 2017-11-14 |
| 公開(公告)號(hào): | CN109781917B | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設(shè)計(jì))人: | 張曉哲;趙楠 | 申請(qǐng)(專利權(quán))人: | 中國科學(xué)院大連化學(xué)物理研究所 |
| 主分類號(hào): | G01N30/88 | 分類號(hào): | G01N30/88;G01N27/62;G01N33/483 |
| 代理公司: | 沈陽科苑專利商標(biāo)代理有限公司 21002 | 代理人: | 馬馳 |
| 地址: | 116023 *** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分子 地圖 生物 樣本 智能 識(shí)別 方法 | ||
1.一種基于分子地圖的生物樣本智能識(shí)別方法,其特征在于:根據(jù)生物樣本分子地圖所蘊(yùn)含的空間特征,而這些特征在不同類生物樣本中呈現(xiàn)不同的分布模式,對(duì)未知樣本進(jìn)行識(shí)別與分類;
所述基于分子地圖的生物樣本智能識(shí)別方法,包括如下步驟:
A、生物樣本提取物利用X-質(zhì)譜儀器進(jìn)行分析,得到X-MS數(shù)據(jù),其中X代表氣相色譜、液相色譜、離子色譜、凝膠色譜、毛細(xì)管電泳、離子遷移譜或其他任意一種能夠在時(shí)間維度上對(duì)分子進(jìn)行分離的方法,MS代表質(zhì)譜;該數(shù)據(jù)中每個(gè)離子或化合物含有保留時(shí)間t、質(zhì)荷比m/z或質(zhì)量m、強(qiáng)度I三個(gè)維度的信息;X-MS數(shù)據(jù)中總離子的數(shù)量≥10;
B、X-MS原始數(shù)據(jù)經(jīng)質(zhì)譜信息提取工具Progenesis QI2.0或Peaks Studio7.0或Metlab16b處理,除去噪音,除去信噪比<1.5的離子,或者缺乏碳13同位素峰的離子,得到過濾后的X-MS數(shù)據(jù);
C、以X-MS數(shù)據(jù)中的t,m/z或m分別作為橫坐標(biāo)和縱坐標(biāo)兩個(gè)維度,構(gòu)建分子地圖;圖中的每個(gè)點(diǎn)對(duì)應(yīng)X-MS數(shù)據(jù)中的一個(gè)離子,每個(gè)點(diǎn)具有自己的坐標(biāo)t,m/z或m,每個(gè)點(diǎn)強(qiáng)度由點(diǎn)的大小或亮度的強(qiáng)弱表示;
D、分子地圖的存儲(chǔ)與分析格式為任一能夠代表高維數(shù)據(jù)的格式,包括mzXML,xls,txt,mat,bmp或jpg的一種或二種以上;
E、在同一型號(hào)的儀器上采用相同的操作參數(shù)和條件,按上述A-D步驟操作,針對(duì)兩個(gè)以上的類別的參照生物樣本進(jìn)行分析,獲取X-MS原始數(shù)據(jù),其中每一類別中參照樣本的數(shù)量為1個(gè)或1個(gè)以上;利用圖像生成軟件將X-MS原始數(shù)據(jù)或多維信息文本轉(zhuǎn)化為分子地圖,得到參照樣本的分子地圖庫;
F、采用相同的操作參數(shù)和條件,按上述A-D步驟操作,針對(duì)待分析的未知樣本進(jìn)行分析,獲取X-MS數(shù)據(jù);利用圖像生成軟件將X-MS數(shù)據(jù)或多維信息文本轉(zhuǎn)化為分子地圖,得到未知樣本的分子地圖;
G、利用機(jī)器學(xué)習(xí)中的圖像分割工具,或聚類工具,將未知樣本分子地圖中的點(diǎn)分割為n個(gè)點(diǎn)簇,其中n≥1整數(shù);
點(diǎn)簇指的是在空間上距離接近的點(diǎn)的集合,點(diǎn)簇內(nèi)點(diǎn)的個(gè)數(shù)n≥3;
每個(gè)點(diǎn)簇有自己的中心點(diǎn),點(diǎn)簇的形狀為任意形狀;
H、將提取點(diǎn)簇后的未知樣本分子地圖與參照樣本分子地圖庫中的參照樣本分子地圖逐一進(jìn)行分別掃描和匹配;
掃描時(shí),將兩個(gè)分子地圖的原點(diǎn)、t軸和m/z或m軸對(duì)齊;
掃描時(shí),點(diǎn)簇作為一個(gè)整體,移動(dòng)的范圍為0-Tk,Tk為參照樣本對(duì)應(yīng)的最大分析時(shí)間;
掃描時(shí),未知樣本的每個(gè)點(diǎn)簇保留其m/z或m軸的位置和幾何形狀,沿時(shí)間軸t進(jìn)行掃描;
通過掃描,尋找未知樣本點(diǎn)簇與參照樣本分子地圖中能夠在t和m/z或m能夠準(zhǔn)確匹配的共同點(diǎn);掃描過程中,在未知樣本中的一個(gè)點(diǎn)簇中的點(diǎn)與參照樣本分子地圖中的點(diǎn)進(jìn)行匹配時(shí),每個(gè)點(diǎn)允許的t絕對(duì)偏移值(t tolerance)為≥T,T等于未知樣本X-MS數(shù)據(jù)采集時(shí)色譜儀允許的保留時(shí)間平均偏移值與參照樣本X-MS數(shù)據(jù)采集時(shí)色譜儀允許的保留時(shí)間平均偏移值之和;
掃描過程中,在未知樣本中的一個(gè)點(diǎn)簇中的點(diǎn)與參照樣本分子地圖中的點(diǎn)進(jìn)行匹配時(shí),每個(gè)點(diǎn)允許的m/z或m絕對(duì)測(cè)定誤差m/z或m tolerance≥A,A等于未知和參照樣本X-MS數(shù)據(jù)采集時(shí)質(zhì)譜儀掃描時(shí)允許的質(zhì)量平均偏差之和;
當(dāng)未知樣本點(diǎn)簇內(nèi)一個(gè)點(diǎn)與參照樣本的某個(gè)點(diǎn)滿足t偏差和m/z或m偏差時(shí),認(rèn)為該點(diǎn)符合匹配要求;
掃描時(shí),點(diǎn)簇沿時(shí)間軸(t)掃描的步長≤T,0s<T<10000s;
其中,保留時(shí)間偏移值以絕對(duì)值表示,使用1個(gè)或1個(gè)以上標(biāo)準(zhǔn)物質(zhì),或某樣本中的1個(gè)或1個(gè)以上化合物的多次重復(fù)測(cè)定計(jì)算;
I、當(dāng)一個(gè)點(diǎn)簇移動(dòng)到參照樣本分子地圖的t軸的每一個(gè)位置時(shí),記錄匹配點(diǎn)的個(gè)數(shù)、每個(gè)匹配點(diǎn)的坐標(biāo)和點(diǎn)簇幾何中心點(diǎn)的坐標(biāo);
J、計(jì)算每一個(gè)位置時(shí),未知樣本一個(gè)點(diǎn)簇i,與該參照樣本分子地圖之間的匹配度Si,匹配度的大小利用統(tǒng)計(jì)工具計(jì)算點(diǎn)簇i與參照樣本分子地圖所匹配的點(diǎn)數(shù)、或相似度、或相關(guān)度中的一種或二種以上進(jìn)行計(jì)算,其中,i≥1的整數(shù);
由上述三種方法得到的匹配度分別由點(diǎn)數(shù)或點(diǎn)數(shù)的函數(shù)、相似度和相關(guān)度表示;
點(diǎn)簇匹配度大小,與點(diǎn)簇匹配的點(diǎn)數(shù)、坐標(biāo)位置t,m/z和強(qiáng)度這四個(gè)變量呈線性或非線性相關(guān);計(jì)算點(diǎn)數(shù)或點(diǎn)數(shù)的函數(shù)、相似度或相關(guān)度的基礎(chǔ)是基于四個(gè)變量的關(guān)系變換;選用不同的匹配度計(jì)算方法分別計(jì)算點(diǎn)簇和參照樣本分子地圖的整體匹配度;
匹配點(diǎn)的個(gè)數(shù)指的是點(diǎn)簇符合匹配條件點(diǎn)的個(gè)數(shù);基于上述步驟,對(duì)未知樣本分子地圖中每一個(gè)點(diǎn)簇的最大匹配度Si進(jìn)行數(shù)學(xué)加權(quán)處理,得到未知樣本分子地圖與參照樣本分子地圖的整體匹配度Sc;
K、重復(fù)上述步驟,逐一分析未知樣本分子地圖與其它參照樣本分子地圖之間的匹配度,得到其與每一個(gè)參照樣本的整體匹配度Sc;
L、未知樣本的所屬類別可不借助閾值或借助閾值進(jìn)行判定;
當(dāng)不借助閾值時(shí),利用上述步驟,將未知樣本與參照樣本進(jìn)行匹配,對(duì)匹配度從大到小進(jìn)行排序,若未知樣本與某一參照樣本的匹配度排名越靠前,表明未知樣本為與該樣本的可能性越大,反之越小;
當(dāng)借助閾值時(shí),設(shè)定閾值?,用于判斷不同來源未知樣本與同類參照樣本匹配的可信范圍;
閾值根據(jù)統(tǒng)計(jì)學(xué)的方法設(shè)定:重復(fù)上述步驟A-D,采用相同或相近的操作參數(shù)和條件,選取2個(gè)以上類別已知的同類別生物樣本作為某一類樣本的訓(xùn)練樣本,進(jìn)行分析,獲取X-MS原始數(shù)據(jù);利用圖像生成軟件將X-MS原始數(shù)據(jù)或多維信息文本轉(zhuǎn)化為分子地圖,得到該類樣本的訓(xùn)練分子地圖集;利用訓(xùn)練分子地圖集,與同類參照樣本分子地圖進(jìn)行匹配,通過統(tǒng)計(jì)學(xué)的方法發(fā)現(xiàn)匹配度分布區(qū)間,選定分布區(qū)間中匹配度的下限作為該類樣本的閾值?;
或,閾值利用文獻(xiàn)報(bào)道或?qū)嶒?yàn)觀察得到某類樣本與參照樣本匹配度分布區(qū)間,采用與步驟A-D相同或相近的操作參數(shù)和條件所得到的分析結(jié)果,選定分布區(qū)間中匹配度的下限作為該類樣本的閾值?,其中, n≥2;
將未知樣本與參照樣本進(jìn)行匹配,匹配度按照從大到小進(jìn)行排序,若未知樣本與某類參照樣本的匹配度排名越靠前,且Sc大于由該類參照樣本測(cè)定所得的閾值?,表明未知樣本為該類樣本的可能性越大,反之越小。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院大連化學(xué)物理研究所,未經(jīng)中國科學(xué)院大連化學(xué)物理研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711123297.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





