[發明專利]一種基于中藥色譜-質譜高維圖像數據庫的中藥識別方法有效
| 申請號: | 201711246801.6 | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN109870515B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 張曉哲;趙楠;程孟春 | 申請(專利權)人: | 中國科學院大連化學物理研究所 |
| 主分類號: | G01N30/02 | 分類號: | G01N30/02 |
| 代理公司: | 沈陽科苑專利商標代理有限公司 21002 | 代理人: | 馬馳 |
| 地址: | 116023 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中藥 色譜 質譜高維 圖像 數據庫 識別 方法 | ||
1.一種基于中藥色譜-質譜高維圖像數據庫的中藥識別方法,其特征在于,按以下步驟進行:
⑴中藥色譜-質譜高維圖像數據庫的建立:
1)獲取與處理已知中藥樣本的原始色譜-質譜X-MS數據:使用色譜和質譜獲取已知中藥樣本的原始X-MS數據,將已知中藥樣本原始X-MS數據導入峰提取軟件中對色譜-質譜聯用原始X-MS數據進行數據處理;
2)生成已知中藥樣本的高維數據與圖像:獲取樣本中每個化合物的m/z、t、I、m、z值,產生高維數據矩陣,生成已知中藥樣本色譜-質譜聯用高維數據;將高維數據導入圖像生成軟件生成圖像,使高維數據中的每個離子與構成圖像中的點一一對應,每個點擁有自己的坐標信息t,m/z,m,m與z,每個點的強度由點的大小或/和亮度的強弱表示,高維數據圖像中的點與高維數據一一對應;高維數據矩陣為m/z-t-I矩陣、m-z-t-I矩陣或m-t-I矩陣;
3)建立已知中藥樣本的色譜-質譜高維圖像數據庫:將獲得的1類或2類以上已知中藥樣本高維數據圖像作為中藥色譜-質譜高維圖像數據庫,類別數≧1,每類已知中藥樣本中的樣本數為1個或2個以上;中藥色譜-質譜高維圖像數據庫,包括已知中藥樣本的樣本信息、原始X-MS數據信息、高維數據信息、高維圖像數據信息;數據庫類型包括文件夾數據集、網頁數據庫、基于商業化工作站或基于用戶自研發工作站的數據庫;
⑵中藥色譜-質譜高維圖像數據庫的應用:
1)未知樣本高維圖像數據的獲取:采用與步驟(1)相同操作參數和條件,按步驟(1)中1)~2)操作,針對待分析的未知樣本進行分析,獲取未知樣本原始X-MS數據和高維數據;利用圖像生成軟件將X-MS數據得到未知樣本的X-MS高維圖像;
2)未知樣本的識別;
A、利用機器學習中的圖像分割工具,或聚類工具,將未知樣本X-MS高維圖像中的點分割為n個點簇,n為大于等于1的整數;聚類工具為K-Means,DBSCAN或 Fanny中的一種或二種以上;
點簇指的是在空間上距離接近的點的集合,點簇內點的個數n≥3;
每個點簇有自己的中心點,點簇的形狀為任意形狀;
B、將提取點簇后的未知樣本X-MS高維圖像與中藥X-MS高維圖像數據庫中的已知中藥樣本X-MS高維圖像逐一進行分別掃描和匹配;
掃描時,將兩個X-MS高維圖像的原點, m/z軸和m軸兩者之一,t軸對齊;
掃描時,點簇作為一個整體,移動的范圍為0-Tk,Tk為已知中藥樣本對應的最大分析時間;
掃描時,未知樣本的每個點簇保留其m/z或m軸的位置和幾何形狀,沿時間軸進行掃描;
通過掃描,尋找未知樣本點簇與已知中藥樣本X-MS高維圖像中能夠在t軸,m/z軸和m軸兩者之一能夠準確匹配的共同點;掃描過程中,在未知樣本中的一個點簇中的點與已知中藥樣本X-MS高維圖像中的點進行匹配時,每個點允許的t絕對偏移值(t tolerance)為≥T,T等于未知樣本X-MS數據采集時色譜儀允許的保留時間平均偏移值與已知中藥樣本X-MS數據采集時色譜儀允許的保留時間平均偏移值之和,其中保留時間平均偏移值為絕對值表示,用1個或1個以上標準物質,或某樣本中的1個或1個以上化合物的多次重復測定計算;
掃描過程中,在未知樣本中的一個點簇中的點與已知中藥樣本X-MS高維圖像中的點進行匹配時,每個點允許的m/z或m絕對測定誤差≥A,A等于未知和已知中藥樣本X-MS數據采集時質譜儀掃描時允許的質量平均偏差之和;質量平均偏差為絕對值表示,由儀器所用的校正液多次重復測定;
當未知樣本點簇內一個點與已知中藥樣本的某個點滿足t偏差,m/z偏差和m偏差兩者之一時,認為該點符合匹配要求;
掃描時,點簇沿時間軸掃描的步長≤T,0s<T<10000s;
C、當一個點簇移動到已知中藥樣本X-MS高維圖像的t軸的每一個位置時,記錄匹配點的個數、每個匹配點的坐標和點簇幾何中心點的坐標;
D、計算每一個位置時,未知樣本一個點簇i,i為≥1的整數,此點簇與該已知中藥樣本X-MS高維圖像之間的匹配度Si,匹配度的大小利用統計工具計算點簇i與已知中藥樣本X-MS高維圖像所匹配的點數、或相似度、或相關度中的一種或二種以上進行計算;
三種方法得到的匹配度分別由點數或點數的函數、相似度或相關度表示;
點簇匹配度大小,與點簇匹配的點數、坐標位置t,m/z和強度這四個變量呈線性或非線性相關;計算點數或點數的函數、相似度或相關度的基礎是基于四個變量的關系變換;
選用不同的匹配度計算方法分別計算點簇和已知中藥樣本X-MS高維圖像的整體匹配度;
匹配點的個數指的是點簇符合匹配條件點的個數;基于上述步驟,對未知樣本X-MS高維圖像中每一個點簇的最大匹配度Si進行數學加權處理,得到未知樣本X-MS高維圖像與已知中藥樣本X-MS高維圖像的整體匹配度Sc;
E、重復上述步驟,逐一分析未知樣本X-MS高維圖像與其它已知中藥樣本X-MS高維圖像之間的匹配度,得到其與每一個已知中藥樣本的整體匹配度Sc;
F、未知樣本的所屬類別可不借助閾值或借助閾值進行判定;
當不借助閾值時,利用上述步驟,將未知樣本與已知中藥樣本進行匹配,對匹配度從大到小進行排序,若未知樣本與某一已知中藥樣本的匹配度排名越靠前,表明未知樣本為與該樣本的可能性越大,反之越小;
或,
當借助閾值時,設定閾值?,用于判斷不同來源未知樣本與同類已知中藥樣本匹配的可信范圍;
閾值根據統計學的方法設定:按步驟(1)中1)~2)操作,采用相同的操作參數和條件,選取2個以上同類別的已知中藥樣本作為某一類樣本的訓練樣本,進行分析,獲取X-MS原始數據;利用圖像生成軟件將X-MS原始數據或多維信息文本轉化為X-MS高維圖像,得到該類樣本的訓練X-MS高維圖像集;利用訓練X-MS高維圖像集,與同類已知中藥樣本X-MS高維圖像進行匹配,通過統計學的方法發現匹配度分布區間,選定分布區間中匹配度的下限作為該類樣本的閾值?;
或,閾值利用文獻報道或實驗觀察得到某類n≥2的樣本與已知中藥樣本匹配度分布區間,按步驟(1)中1)~2)操作采用相同的操作參數和條件所得到的分析結果,選定分布區間中匹配度的下限作為該類樣本的閾值?;
將未知樣本與已知中藥樣本進行匹配,匹配度按照從大到小進行排序,若未知樣本與某類已知中藥樣本的匹配度排名越靠前,且Sc大于由該類已知中藥樣本測定所得的閾值?,表明未知樣本為該類樣本的可能性越大,反之越小;
3)未知樣本識別結果的驗證
將步驟(2)中與未知樣本匹配的已知中藥樣本按匹配度排名排列,在未知樣品的原始X-MS數據信息和/或高維數據信息中按上述匹配度排名依次檢索對應已知中藥樣本的標志性化合物,標志性化合物數目≧1,未知樣本中檢索到標志性化合物時即接受未知樣本是該已知中藥樣本,停止檢索;若第一排名已知中藥樣本在未知樣本中未搜索到,接下來在未知樣本中檢索第二排名已知樣本標志性化合物,以此類推,一直到檢索到標志性化合物為止;若所有匹配到的已知樣本中的標志性化合物在未知樣本中都沒有檢索到,即認為已建立的數據庫中沒有包含該未知樣本;識別過程中樣品是制備方法采用超聲提取10min,15000轉/分鐘高速離心10min取上清液,色譜方法中色譜柱的柱溫為60℃,進樣量為2uL;質譜方法中數據采集范圍m/z 100-3200。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院大連化學物理研究所,未經中國科學院大連化學物理研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711246801.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輪轂無損檢測設備
- 下一篇:一種代謝物-蛋白質相互作用體系篩選和表征方法





