[發明專利]一種基于支持向量機的近紅外光譜數據分析方法在審
| 申請號: | 201810912233.7 | 申請日: | 2018-08-10 |
| 公開(公告)號: | CN109034261A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 劉軍;吳夢婷;肖澳文 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/50;G06N3/08 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 唐萬榮;李丹 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 支持向量機 近紅外光譜數據 樣本 回歸模型 測試集 訓練集 分析 預處理 近紅外光譜圖 歸一化處理 近紅外光譜 懲罰因子 仿真預測 模型預測 特征波長 最佳參數 方差 存儲 采集 分類 回歸 預測 重復 | ||
本發明公開了一種基于支持向量機的近紅外光譜數據分析方法,包括如下步驟:1)采集樣本的近紅外光譜圖和樣本中某種物質的含量;2)對數據進行預處理,同時進行特征波長選擇;3)取m個數據作為訓練集,剩下的n?m個數據作為測試集;4)基于訓練集和測試集,對數據進行歸一化處理;5)尋找最佳參數懲罰因子c和RBF核函數中的方差g,進行第一次支持向量機回歸模型訓練;6)將第一次模型預測中不能正確分類的樣本加入到訓練集中,重復上述的3)至5)步,建立第二次支持向量機回歸的模型;7)存儲訓練出來的近紅外光譜數據分析的回歸模型;8)進行支持向量機仿真預測。本發明能夠更為準確的分析近紅外光譜的數據,預測的精度高。
技術領域
本發明涉及紅外光譜數據分析技術,尤其涉及一種基于支持向量機的近紅外光譜數據分析方法。
背景技術
目前近紅外光譜數據分析中常用到的算法常用的有:偏最小二乘法:建立回歸模型的同時可以進行主成分分析簡化數據,預測性能較好,但是僅在少數情況下使用具有優勢;BP神經網絡算法:具有很強的非線性映射能力和自學習能力,但是學習速度慢,容易出現“過擬合”現象;線性判別分析法:屬于有監督的學習降維,不適合非高斯分布樣本進行降維,可能會過度擬合數據;主成分分析法:有助于信息的提取和聚類分析,能夠有效地降低誤差和消除噪音,當樣本中的部分有用變量的相關性很小時,容易發生遺漏。
發明內容
本發明要解決的技術問題在于針對現有技術中的缺陷,提供一種基于支持向量機的近紅外光譜數據分析方法。
本發明解決其技術問題所采用的技術方案是:
一種基于支持向量機的近紅外光譜數據分析方法,包括如下步驟:
1)采集樣本的近紅外光譜圖和樣本中某種特征物質的含量,例如蛋白質或者油的含量;
2)對數據進行預處理以減少近紅外光譜噪聲對模型構建的影響,同時進行特征波長選擇;
3)利用隨機數函數產生得到的m個數據作為訓練集,剩下的(n-m)個數據作為測試集;
4)基于訓練集和測試集,對數據進行歸一化處理;
5)尋找最佳參數c(懲罰因子)和參數g(RBF核函數中的方差),訓練支持向量機,進行反歸一化,并且進行第一次支持向量機回歸模型的訓練;
參數尋找具體如下:
核函數采用了默認的RBF核函數,讓懲罰因子c和RBF核函數中的方差g在設定的范圍內進行取值,自由組合得到多組c和g參數的組合,對于取定的參數組合,把上述的訓練集作為原始數據集,利用交叉驗證的方法在此組c和g下進行訓練,將模型準確率最高的c和g參數作為最佳參數;當模型的性能相同時,選擇懲罰因子c比較小的參數組合;
6)若存在第一次模型訓練中不能正確分類的樣本,將第一次模型預測中不能正確分類的樣本加入到訓練集中,重復上述的步驟3)至5),建立第二次支持向量機回歸的模型,通過支持向量機回歸對近紅外光譜的數據進行分析,得到訓練集預測結果;
7)存儲訓練出來的近紅外光譜數據分析的回歸模型;
8)進行支持向量機仿真預測,得出訓練集預測結果和測試集預測結果進行對比。
本發明產生的有益效果是:本發明提供了一種準確率更高的預測方法。
附圖說明
下面將結合附圖及實施例對本發明作進一步說明,附圖中:
圖1是本發明實施例的近紅外光譜圖;
圖2是本發明實施例的訓練集預測結果對比圖;
圖3是本發明實施例的測試集預測結果對比圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810912233.7/2.html,轉載請聲明來源鉆瓜專利網。





