[發明專利]基于近紅外光譜分析的樣本空間聚類劃分法有效
| 申請號: | 201710811980.7 | 申請日: | 2017-09-11 |
| 公開(公告)號: | CN107563448B | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 劉彤;向軼;許定舟;曾永平;肖青青;凌亞東 | 申請(專利權)人: | 廣州訊動網絡科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 劉巧霞 |
| 地址: | 510530 廣東省廣州市高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 紅外 光譜分析 樣本 空間 劃分 | ||
1.基于近紅外光譜分析的樣本空間聚類劃分法,其特征在于,包括步驟:
(1)設定聚類類別數k,對數據集中的近紅外光譜進行聚類分析,聚為k個類別,得到k組數據集,保證每組數據集中至少包含1個樣本;
(2)確定劃分比例,從這k組數據集中的每個集合中都隨機抽取同樣比例的訓練集數據,得到C1-Train,C2-Train,…,Ck-Train,每個集合中的剩余數據作為測試集,得到C1-Test,C2-Test,…Ck-Test;
(3)組合C1-Train,C2-Train,…,Ck-Train作為當前的訓練集C-Train;
組合C1-Test,C2-Test,…Ck-Test作為當前的測試集C-Test;
(4)若當前建模方法是采用PLS算法進行定量分析,執行下述步驟:
(4-1)計算當前訓練集C-Train對應理化數據的均值CTrainAve及標準差CTrainSd,計算當前測試集C-Test對應理化數據的均值CTestAve及標準差CtestSd;
(4-2)計算訓練集與測試集理化值之間的均值誤差AveError及標準差誤差SdError;
(4-3)若AveError≤A1且SdError≤A2,說明聚類劃分成功,將當前的C-Train、C-Test分別作為樣品集的最終訓練集、最終測試集;否則,重新執行步驟(2),再次按比例隨機抽取數據,更新C-Train、C-Test,直到聚類劃分成功,或者滿足失敗條件,終止聚類劃分;
(5)若當前建模方法是采用PLSDA算法進行定性分析,執行下述步驟:
(5-1)統計訓練集中正樣本的數量Train(+),測試集中正樣本的數量Test(+);
(5-2)若Train(+)占訓練集總樣本數量的B1%以上、B2%以下,且Test(+)占測試集總樣本數量的B1%以上、B2%以下,聚類劃分成功,將當前的C-Train作為樣品集的最終訓練集,當前的C-Test作為樣品集的最終測試集;
(5-3)若Train(+)占訓練集總樣本數量的B1%以下或B2%以上,或Test(+)占測試集總樣本數量的B1%以下或B2%以上,則重新執行步驟(2),再次按比例隨機抽取數據,更新C-Train、C-Test,直到聚類劃分成功,或者滿足失敗條件,終止聚類劃分。
2.根據權利要求1所述的基于近紅外光譜分析的樣本空間聚類劃分法,其特征在于,所述步驟(1)中,采用kmeans算法對數據集中的近紅外光譜進行聚類分析。
3.根據權利要求2所述的基于近紅外光譜分析的樣本空間聚類劃分法,其特征在于,采用kmeans算法進行聚類分析的步驟是:
(1-1)初始化k個聚類中心坐標;
(1-2)計算每條光譜離各個聚類中心點的距離,并把它的類別歸為與其距離最近的類別;
(1-3)根據每個類別中的光譜,重新計算該聚類中心的坐標;
(1-4)迭代步驟(1-2)-(1-3),直至新的聚類中心與原聚類中心相等或相差小于一定閾值,聚類結束。
4.根據權利要求1所述的基于近紅外光譜分析的樣本空間聚類劃分法,其特征在于,步驟(4)中,均值誤差AveError及標準差誤差SdError的計算公式如下:
CTrainAve、CTestAve、CTrainSd、CtestSd分別代表訓練集C-Train的均值、測試集C-Test的均值、訓練集C-Train的標準差、測試集C-Test的標準差。
5.根據權利要求1所述的基于近紅外光譜分析的樣本空間聚類劃分法,其特征在于,步驟(4-3)中,若聚類劃分成功,則使用得到的最終訓練集、最終測試集進行PLS的最佳主因子數選擇并建立模型;
若聚類劃分失敗,則使用傳統留一交叉驗證法來進行PLS的最佳主因子數選擇,然后使用計算得出的最佳主因子數創建全集模型。
6.根據權利要求1所述的基于近紅外光譜分析的樣本空間聚類劃分法,其特征在于,步驟(5-2)和(5-3)中,若聚類劃分成功,則使用得到的最終訓練集、最終測試集進行PLS的最佳主因子數選擇并建立模型;
若聚類劃分失敗,則使用傳統留一交叉驗證法來進行PLS的最佳主因子數選擇,然后使用計算得出的最佳主因子數創建全集模型;
建立模型后在檢測時使用DA判別法,以0.5為界限劃分正負樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州訊動網絡科技有限公司,未經廣州訊動網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710811980.7/1.html,轉載請聲明來源鉆瓜專利網。





