[發明專利]基于近紅外光譜分析的樣本空間聚類劃分法有效
| 申請號: | 201710811980.7 | 申請日: | 2017-09-11 |
| 公開(公告)號: | CN107563448B | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 劉彤;向軼;許定舟;曾永平;肖青青;凌亞東 | 申請(專利權)人: | 廣州訊動網絡科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 劉巧霞 |
| 地址: | 510530 廣東省廣州市高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 紅外 光譜分析 樣本 空間 劃分 | ||
本發明公開了一種基于近紅外光譜分析的樣本空間聚類劃分法,步驟是:對數據集中的近紅外光譜進行聚類分析,聚為多個類別;從聚類后的每個類別中分別選取一定比例的訓練集及測試集,判斷訓練集和測試集中的樣品是否滿足建模算法的要求,若滿足,則聚類劃分成功,確定最終的訓練集及測試集,若不滿足,則更新訓練集及測試集,再次計算,直到聚類劃分成功,或者滿足失敗條件。通過利用該方法劃分后的樣本集,能有效降低隨機劃分訓練集與測試集造成的PLS算法最佳主因子數不穩定的情況;能在樣本數量較大的情況下有效降低使用留一交叉驗證法帶來的時耗問題;能根據樣本數量大小來調整聚類法中的類別數量,從而提升樣本成功劃分的幾率。
技術領域
本發明涉及近紅外光譜分析研究領域,特別涉及一種基于近紅外光譜分析的樣本空間聚類劃分法。
背景技術
目前,近紅外光譜結合化學計量學方法用于定量和定性分析大都是采用同樣一種模式,即基于一組已知樣品建立校正模型。這一組已知樣品稱為訓練集樣品,通過這組樣品的光譜及其對應基礎數據(理化數據),利用回歸法或模式識別法建立定量或定性模型。對于待測樣品,只需測定其光譜,根據已建的模型便可快速給出定量或定性結果。
以回歸法中的PLS算法為例,該算法針對定量分析,實現的具體步驟是:
A1:將樣品理化值設為標簽、光譜設為特征集合。
A2:將樣品集按一定比例分為訓練集與測試集。
A3:為PLS算法設定最小主因子數及最大主因子數。其中主因子數需為正整數、不大于近紅外光譜波長點數的一半、不大于訓練集樣本數量的一半。
A4:針對A3中設定的最小到最大主因子數范圍內的n個主因子數,使用PLS算法為訓練集建立回歸模型。
A5:針對A4中建立的n個模型,對測試集進行理化值預測,得到n組預測值。
A6:分析A5中的n組預測值,得到n個模型評價參數(實際可選用預測標準偏差SEP)。
A7:找出A6中n個模型評價參數中最小的,將該參數對應的主因子數做為模型的PLS最佳主因子數Fbest。
A8:使用A7中找出的最佳主因子數Fbest,使用PLS算法為樣品全集建立模型Mbest。
A9:此時,該樣品集的定量分析模型為Mbest。
A10:檢測時直接使用Mbest對新光譜(特征集)進行理化值(標簽)預測。
以模式識別法中的PLSDA算法為例,該算法針對定性分析,實現的具體步驟是:
B1:將正樣品的標簽設為1、負樣品的標簽設為0、光譜設為特征集合。
B2:將樣品集按一定比例分為訓練集與測試集。
B3:為PLS算法設定最小主因子數及最大主因子數。其中,主因子數需為正整數、不大于近紅外光譜波長點數的一半、不大于訓練集樣本數量的一半。
B4:針對B3中設定的最小到最大主因子數范圍內的n個主因子數,使用PLS算法為訓練集建立回歸模型。
B5:針對B4中建立的n個模型,對測試集進行理化值預測,得到n組預測值。
B6:分析B5中的n組預測值,得到n個模型評價參數(實際可選用預測標準偏差SEP)。
B7:找出B6中n個模型評價參數中最小的,將該參數對應的主因子數作為模型的PLS最佳主因子數Fbest。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州訊動網絡科技有限公司,未經廣州訊動網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710811980.7/2.html,轉載請聲明來源鉆瓜專利網。





