[發明專利]一種基于KNN的近紅外異常光譜識別方法有效
| 申請號: | 201710793823.8 | 申請日: | 2017-09-06 |
| 公開(公告)號: | CN109459409B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 劉聰;徐友武;陽程 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G01N21/359 | 分類號: | G01N21/359 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 224051 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 knn 紅外 異常 光譜 識別 方法 | ||
本發明公開了一種基于KNN的近紅外異常光譜識別方法,以針對近紅外光譜分析中,異常光譜數據的存在嚴重影響到光譜分析模型的準確性和可靠性的問題。方法步驟包括:選擇相似性度量、選擇超參數k、計算光譜間距離度量、找出k最短距離樣本、計算樣本異常度量、樣本按異常度量排序、識別和剔除異常度量高樣本。本發明主要用于構建近紅外光譜分析模型的中異常光譜的識別和剔除。
技術領域
本發明涉及一種基于KNN的近紅外異常光譜識別方法。
背景技術
異常值是指和大多數數據模式不一致的觀測樣本值。異常值識別對于任何基于經驗數據的研究都是不可或缺的部分。在近紅外光譜分析等許多現實的應用場合,數據不但含噪聲干擾還包含異常數據,導致所得出的模型出現極大的偏差。異常光譜的存在等訓練數據集質量問題,已經成為改善近紅外光譜分析模型性能的關鍵和瓶頸。在基于近紅外光譜分析的品質參數檢測中,異常數據包括異常光譜數據和所預測的品質參數的異常測量值。品質參數一般是一維數據,低維數據的異常值識別相對簡單,現有方法可以很好的完成,本章節不作分析研究。而高維的異常光譜數據的識別,是具有挑戰性的問題,仍然是近紅外光譜分析中值得重點關注和研究的環節,也是本章所要研究的內容。
有研究指出日常數據中異常值出現的概率大概有1% 到15%。數據中異常值的出現通常有兩種原因。一種是因為實驗性錯誤;另一種是由于少數幾個對象的獨特特征。同樣,近紅外光譜分析中,異常光譜可能來源于測量背景異常變化,儀器噪聲增加,操作錯誤等,也有可能源于少數測試樣本自身的異常。
在近紅外光譜分析中,異常光譜數據的存在嚴重影響到光譜分析模型的準確性和可靠性。異常光譜數據影響正確的回歸模型的構建以及模型參數準確估計,從而影響預測結果的準確性。使用魯棒的回歸分析模型和方法,可以使回歸模型在一定程度上減少異常值的影響并盡量代表大多數的數據,但無法完全消除異常值的負面影響。因此在光譜數據分析之前檢測和識別異常光譜很重要。異常值識別是構建高質量的回歸預測模型的最重要步驟之一。
由于異常光譜識別的重要性,已成為大部分近紅外光譜分析研究中一個重要步驟。當前的許多光譜分析方面的研究,通過繪制光譜圖,然后由人工去分析和識別異常光譜。這種人工識別方式雖然簡單直觀,但效率低下,且只能識別出的少量的特別明顯的異常光譜,多數異常光譜在大量光譜遮蓋下不易發現。有些研究中使用了如基于馬氏距離,杠桿值,殘差,主成分分析等方法識別異常光譜。
基于馬氏距離和杠杠值等識別異常值的傳統方法的不可靠和局限性,數十年前在統計領域就被清楚認識到。馬氏距離要求樣本數大于等于數據維度,這對于許多近紅外光譜分析的場合都不能滿足。杠桿值計算不但要求樣本數不小于數據維度,而且要求數據矩陣滿秩,比馬氏距離計算的條件更為嚴格。
基于回歸殘差的異常值識別,依賴于正確的回歸預測模型的構建。而異常光譜數據的存在,又會妨礙回歸模型的正確構建,導致參數估計偏離,得到扭曲的預測結果。并且回歸殘差也依賴于所預測品質參數測量值的準確性,即品質參數的異常值和誤差也會嚴重影響殘差的大小。這些因素都會導致基于回歸殘差的異常光譜識別的不可靠。而且,基于回歸殘差的異常值識別,只適合于檢測訓練數據集中的異常光譜,而無法檢測預測數據集中的異常光譜,因為預測數據集中的真實的品質參數值是未知的。然而預測光譜數據集中的異常值檢測也很重要。
基于馬氏距離,杠桿值,殘差等的異常值識別方法的不可靠,主要的原因是由于異常值的存在,會扭曲異常值識別方法的度量。異常值相互之間存在浸沒(Swamping)效應和掩蔽(Masking)效應。浸沒效應是指正常數據也被誤判為異常數據。掩蔽效應是指由于其他異常值的遮蔽,使一些異常值被誤認為是正常數據。數據集中異常數據數量越多,這兩種效應也會越明顯和嚴重。
發明內容
發明目的:
本發明的目的就是為了解決異常光譜數據影響近紅外定量分析模型的性能的問題,準確而全面的更好識別并剔除異常光譜,從而改善近紅外定量分析預測模型的準確性和可靠性,提高模型的預測精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710793823.8/2.html,轉載請聲明來源鉆瓜專利網。





