[發明專利]一種基于韋恩預測的電子鼻數據挖掘方法有效
| 申請號: | 201510428867.1 | 申請日: | 2015-07-20 |
| 公開(公告)號: | CN105095689B | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 王酉;苗加成;李光 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 杭州杭誠專利事務所有限公司33109 | 代理人: | 王江成,盧金元 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 預測 電子 數據 挖掘 方法 | ||
技術領域
本發明涉及電子鼻數據處理,尤其是涉及一種基于韋恩預測的電子鼻數據挖掘方法。
背景技術
電子鼻是一種模擬生物嗅覺工作原理的新型仿生檢測儀器。它利用若干非特異性的氣敏傳感器組成的傳感器陣列對目標氣體進行精確的檢測和區分,具有快速識別、操作簡便、客觀性強、可靠性高以及成本低廉等優點。電子鼻已經廣泛應用于環境監測、食品質量評估、醫療診斷以及其他方面的研究。
數據挖掘是電子鼻發展過程中的一個重要部分,傳統的數據挖掘將更多注意力放在數據的預處理、特征提取、特征優化以及分類器的設計等方面。傳統的分類器如線性判別分析(LDA),支持向量機(SVM)等只給出預測結果,而對預測結果可信任程度并沒有給出更多的信息。舉例來說,在醫學診斷中,通常給出一個疾病確診的概率比只給出一個診斷結果要有用的多。
有許多方法能都能給出預測結果的概率分布,但這些方法是建立在對樣本分布很強的假設上。因此,一旦假設的統計模型不正確,預測的結果也不會正確。
中華人民共和國國家知識產權局于2013年01月23日公開了名稱為“基于有監督顯式流形學習算法的電子鼻數據挖掘方法”的專利文獻(公開號:CN102890718A),其中顯式流形學習算法對電子鼻數據進行數據挖掘的方法的步驟包括:氣體樣本的采集、氣體樣本的特征提取、確定特征值矩陣中各點的近鄰、計算任意兩特征值點的關系和顯式流形算法的數據降維。有監督的顯式流形學習算法對電子鼻數據進行數據挖掘包括上述全部步驟并在氣體樣本的特征提取后增加一步:考慮類別信息確定特征值矩陣中各點的近鄰。此方案不能提供預測結果正確的概率區間,對后續決策來說缺少必要的信息。
發明內容
近年來,svm模型得到了廣泛的研究和應用,取得了較好的結果。韋恩預測算法一種多概率預測算法(multi-probabilistic predictor)。它是一種算法框架,任何一種分類算法都可以應用到韋恩預測算法中。韋恩預測算法不僅預測測試樣本的種類,同時給出該預測正確的概率區間,為后續的決策提供更多的信息。
本發明主要是解決傳統分類算法只能夠預測測試樣本種類的技術問題,提供一種不僅預測測試樣本的種類,同時給出該預測正確的概率區間,從而為后續的決策提供更多信息的基于韋恩預測的電子鼻數據挖掘方法。
本發明針對上述技術問題主要是通過下述技術方案得以解決的:一種基于韋恩預測的電子鼻數據挖掘方法,包括以下步驟:
S01、獲取m個傳感器的n次實驗數據,得到原始樣本矩陣M,原始樣本矩陣表示為:
其中,(i=1,2,…n,j=1,2…,m)是一個向量,表示第i次實驗第j個傳感器隨采樣時間得到的采樣點數據,采樣點數目為s;
S02、提取原始樣本矩陣M中每次實驗每個傳感器的s個采樣點中的最大響應值,得到最大值特征矩陣X,最大值特征矩陣表示為:
其中,是一個標量,表示第i次實驗第j個傳感器s個采樣點數據中的最大值;對n次實驗的樣本種類進行編號1,2…k,k代表原始樣本的種類數,生成樣本的標簽Y;得到樣本矩陣Z=[X Y],zi={xi,yi},i={1,2,…,n};
S03、將樣本矩陣Z分為訓練集Str和測試集Ste,Str={z1,z2,…,zr-1};抽取測試集中某一樣本zt進行預測;
S04、假設yt=y,y∈{1,2,…k}。新的數據集Zt=[z1,z2,…,zr-1,zt];
S05、對于Zt中的每一個樣本zj,j={1,2,…r-1,t},其他樣本構成新的訓練集進行建模,然后對zj進行預測,得到它的預測種類bj;
S06、預測類別為bt的樣本集合中包括zt=(xt,y);令py是這個集合中不同類別的經驗概率分布,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510428867.1/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





