[發明專利]基于Gap度量下的工業化工數據預處理的分類方法在審
| 申請號: | 202010813199.5 | 申請日: | 2020-08-13 |
| 公開(公告)號: | CN111985550A | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 鮑中新;文成林;姚博 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 gap 度量 工業 化工 數據 預處理 分類 方法 | ||
1.基于Gap度量下的工業化工數據預處理的分類方法,其特征在于該方法包括以下步驟:
步驟1、數據預處理:
X1步,將工業系統采集到的化工葡萄酒數據集構造成多維變量系統數據矩陣Xn;
X2步,設構造的樣本數據矩陣Xn∈Rm×n如下
其中,行向量xi(j)=[x1(j) x2(j) … xm(j)]T,i=1,2,…,m,j=1,2,…,n表示不同類別的樣本數據中的,列向量屬于同一個類別,但是具有不同特征的數據;對數據集矩陣Xn進行均值化處理得到;
這里,lm=[1,1,…,1]T∈Rm×1,bn是Xn的各變量樣本中心向量;
X3步,將數據矩陣Xn投影到黎曼球上,計算每個樣本距離樣本中心的Gap度量,Gap度量變換后的矩陣記為X*
其中Gap度量變換的公式如下
和表示兩個實數xi(c),bn(c)在直徑為1的黎曼球上的球面投影;
變換后的數據矩陣為
步驟2、PCA降維:
Y1步,利用變換后的數據矩陣X*,計算樣本相關矩陣R
Y2步,求樣本矩陣R的s個特征值和及其所對應的單位特征向量
求解R的特征方程
|R-λI|=0 (7)
得到R的m個特征值
λ1≥λ2≥....≥λm
求方差貢獻率達到預定值的主成分個數s,
通常s的取值使得累計方差貢獻率達到規定的百分比以上;
Y3步,求前s個特征值對應的單位特征向量
ai=(a1i,a2i,...ami)T,i=1,2,...,s (9)
Y4步,求s個樣本的主成分,以s個單位特征向量為系數進行線性變換,求出s個樣本的主成分
Y5步,計算第s個主成分ys與原變量xi的相關系數ρ(ys,xi),以及s個主成分yi對應對原變量xi的貢獻率μi;其中計算公式如下:
其中σii是隨機變量xi的方差,是協方差矩陣上面的對角元素;
Y6步,計算n個樣本的s個主成分值
將樣本數據代入(10)可以得到n個樣本的主成分值,第j個樣本xj=(x1j,x2j,...,xmj)T的第i主成分的值是
步驟3、KNN分類:
Z1步,將進行PCA降維后的數據劃分為訓練樣本集和測試樣本集,在訓練樣本集中找到k-近鄰,計算測試樣本每一個樣本x(k)k=1,2...,n;與訓練樣本之間的歐氏距離,并找到距離他最近的k個樣本
di,j=||x(i)-x(j)||2,i≠j (13)
x(i)和x(j)分別表示兩個樣本,i,j=1,2...,n;
Z2步,統計計算k個近鄰中屬于各類的概率
以上k表示k個近鄰,kα表示k個近鄰中屬于α類的樣本個數,α=1,2,...,c,其中c為樣本中類別的個數;
Z3步,計算類別,對于一個新的樣本x(k),根據上式計算其k個近鄰并計算p(α),將p(α)從大到小進行排序,pmax(α)所屬的類就是測試樣本中的類;
Z4步,首先對測試樣本集中每個集合賦予已知的類別,然后根據KNN算法求解出預測的類別,最后統計分類準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010813199.5/1.html,轉載請聲明來源鉆瓜專利網。





