[發明專利]基于Gap度量下的工業化工數據預處理的分類方法在審
| 申請號: | 202010813199.5 | 申請日: | 2020-08-13 |
| 公開(公告)號: | CN111985550A | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 鮑中新;文成林;姚博 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 gap 度量 工業 化工 數據 預處理 分類 方法 | ||
本發明公開了一種基于Gap度量下的工業化工數據預處理的分類方法。本發明的核心思想是將從工業化工系統采集到的Wine數據集構造成多維變量系統矩陣。然后通過Gap度量算法投影到黎曼球上,計算每個樣本距離樣本中心的Gap度量。變換后的數據矩陣再利用主成分分析(PCA)進行特征提取與降維,之后再運用機器學習中K近鄰算法對降維后的數據進行分類。通過運用上述所提出方法進行仿真實現,具有較好的數據分類效果和分類準確率,從而驗證了本發明的有效性。
技術領域
本發明屬于工業化工領域,具體涉及一種基于Gap度量下的工業化工數據預處理的分類方法
背景技術
近些年,隨著信息物理系統技術和人工智能技術的快速發展,復雜的現代工業化工系統采集到的數據復雜度和精度也越來越高,從復雜系統中采集到的數據變量的相關性也越來越高,樣本特征的維數和種類也越來越大,因此帶來了維數“災難”,因此在如何最大提取這些數據中的重要信息和將這些數據按照類別進行分類就顯得愈來愈重要。
在工業化工系統采集到的系統變量數據中,因為系統中各個變量的量綱并不相同,所以我們需要對原先數據進行標準化來消除量綱的的影響。在數據預處理過程中因為傳統的標準化方法會忽視量綱對系統變量多樣性的影響,幾何角度成為均勻分布等問題。這就加大了數據壓縮和特征提取的難度。較難提取信息量大的主元,所以對導致對數據分類的效果不太好。因此保持采集到的工業化工數據相關性和最大特征性是預處理方法的關鍵。
發明內容
為了針對傳統數據預處理技術中的缺點和不足,本發明的目的是在Gap度量下數據預處理能保持采集到的數據變量的相關性。該分類方法針對工業化工系統采集到的復雜高維度數據預處理,可提高分類準確率。
為了達到上述目的,本發明通過以下的技術方案實現:基于Gap度量下的工業化工數據預處理的分類方法,其核心技術方法包括四個階段:數據預處理階段,PCA降維階段,KNN分類階段,仿真測試階段。
其中,所述預處理階段包括如下的步驟:
X1步,將工業系統采集到的化工葡萄酒數據集構造成多維變量系統數據矩陣Xn;
X2步,設構造的樣本數據矩陣Xn∈Rm×n如下
其中,行向量xi(j)=[x1(j) x2(j) … xm(j)]T,i=1,2,…,m,j=1,2,…,n表示不同類別的樣本數據中的,列向量屬于同一個類別,但是具有不同特征的數據。對數據集矩陣Xn進行均值化處理得到。
這里,lm=[1,1,…,1]T∈Rm×1,bn是Xn的各變量樣本中心向量。
X3步,將數據矩陣Xn投影到黎曼球上,計算每個樣本距離樣本中心的Gap度量,Gap度量變換后的矩陣記為X*
其中Gap度量變換的公式如下
和表示兩個實數xi(c),bn(c)在直徑為1的黎曼球上的球面投影。
變換后的數據矩陣為
所述的PCA降維階段包括如下步驟:
Y1步,利用變換后的訓練數據矩陣X*,計算樣本相關矩陣R
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010813199.5/2.html,轉載請聲明來源鉆瓜專利網。





