[發明專利]一種用于近紅外光譜分析的校正集和驗證集的劃分方法有效
| 申請號: | 201611062548.4 | 申請日: | 2016-11-25 |
| 公開(公告)號: | CN106770005B | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 聶磊;臧恒昌;曾英姿;姜紅;姜文文;張惠;李彤彤 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G01N21/359 | 分類號: | G01N21/359;G06F17/50 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 王志坤 |
| 地址: | 250061 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 驗證集 擬合 近紅外光譜分析 校正集 建模 參考 近紅外光譜 校正集樣本 模型計算 剩余樣本 預測能力 剔除 關聯 預測 重復 | ||
本發明公開了一種用于近紅外光譜分析的校正集和驗證集的劃分方法,步驟如下:將樣本的近紅外光譜與相應的參考值關聯,擬合,計算每個樣本的擬合值和對應參考值的差值的平方,記為ei2=(Yi?Yif)2,其中,Yi和Yif分別表示樣本i的參考值和通過模型計算的擬合值,ei代表Yi和Yif的差值;選擇ei2最小值對應的樣本作為驗證集樣本;將i樣本剔除,然后對于剩余樣本繼續建模、擬合,重復上述步驟,直到選擇出需要的驗證集樣本數量,剩余的樣本為校正集樣本。采用本發明的用于近紅外光譜分析的校正集和驗證集的劃分方法,與Kennard?Stone法和SPXY方法比較,得到的建模性能要好,預測能力更強,特別是對于獨立驗證集樣本的預測更好。
技術領域
本發明涉及光譜分析中的樣品集劃分技術領域,具體涉及一種用于近紅外光譜分析的校正集和驗證集的劃分方法。
背景技術
近紅外光譜分析方法(NIR)是目前發展迅速的一種快速、無損及綠色的分析技術,在諸多領域如化學、生命科學、食品及制藥領域得到廣泛應用。近紅外光譜分析法與傳統的分析方法不同的是需要通過化學計量學方法將樣本的近紅外光譜與對應的參考值(如成分含量等)關聯建立校正模型,然后通過校正模型進行對未知樣本的參考值進行預測,以實現快速分析的目的。
為了建立校正模型,需要對樣本數據集進行劃分。不同的劃分方法得到的校正集和驗證集的結果是不同的。如何選擇何種樣本以提高模型的適用性和預測能力是NIR建模的基本問題之一。
目前,在近紅外光譜研究領域應用較多的數據集劃分方法主要有Kennard-Stone(KS)法及SPXY法。其中,KS法可以使有代表性的樣品進入定標集,從而在一定程度上避免了定標集樣品分布的不均勻。但這種方法沒有考慮到有些光譜的差異并非完全由所測樣品的組成或性質的差異引起的,很有可能將異常樣品也選入定標集中。
SPXY法與KS法非常相似,它是以KS為基礎,將參考值變量(Y)加以考慮,對樣本近紅外光譜間的距離和參考值間的距離進行了標準化處理(除以相應距離的最大值),使得樣本在近紅外光譜空間和參考值空間權重相同。但從方法本身來看,SPXY法和KS法對所選擇的校正集樣本是否有較好的預測能力很難確定。
因此,校正集和驗證集樣本的選擇對光譜多元分析校正至關重要,校正集和驗證集的不同劃分會造成模型預測效果的變化很大,如果驗證集樣本的選擇不具代表性,則將嚴重影響模型性能的正確評價。提供新的建模性能更好、預測能力更強的樣品集的劃分方法,是近紅外光譜分析的關鍵課題之一。
發明內容
針對上述現有技術,本發明的目的是提供一種用于近紅外光譜分析的校正集和驗證集的劃分方法。
為實現上述目的,本發明采用下述技術方案:
一種用于近紅外光譜分析的校正集和驗證集的劃分方法,包括以下步驟:
(1)對樣品進行近紅外光譜測定,得光譜原始矩陣X;
(2)采用參考方法測定樣品的參考值,得到矩陣Y;
(3)對光譜原始矩陣X進行異常值檢測,將異常值剔除,并將相對應的矩陣Y中的異常參考值剔除;
(4)在剔除異常值后的矩陣X中,抽取一定量的樣本組成獨立驗證集,記為Xt,其對應參考值矩陣為Yt,Xt和Yt的樣本一一對應;獨立驗證集的樣本數量根據實際需要進行確定,一般不要多于校正集的樣本數量,且參考值的范圍一般應包含于校正集樣本的參考值范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611062548.4/2.html,轉載請聲明來源鉆瓜專利網。





