[發明專利]基于線性判別分析與多元自適應樣條的數據分類方法在審
| 申請號: | 201910357895.7 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110097117A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 李智慧;王帥;劉詠梅 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自適應 樣條 線性判別分析 分類 數據分類 感知機 非線性分類 遞歸分割 分段線性 分類特征 分類問題 分類誤差 區間分割 輸入變量 多輸出 訓練集 回歸 降維 算法 預測 | ||
本發明公開了一種基于線性判別分析與多元自適應樣條的數據分類方法,本發明是一種將降維與分類相結合的方法,首先通過線性判別分析方法確定最有效的分類特征,然后通過多元自適應回歸樣條(Multivariate adaptive regression splines,MARS)實現輸入變量區間分割,將非線性分類轉為線性分類問題,最后通過感知機實現分類,本發明實現了多輸出分段線性分類,通過多元自適應回歸樣條的方式實現遞歸分割,通過感知機方式實現線性分類使得訓練集的分類誤差最小,預測時間在毫秒級以下,該算法有快速準確的特點。
技術領域
本發明涉及一種數據分類方法,特別是一種基于線性判別分析與多元自適應樣條的數據分類方法,屬于機器學習中的數據降維與分類領域。
背景技術
機器學習中的數據降維與分類技術是人工智能的核心技術,有廣泛的應用。傳統的分類算法中,支持向量機(Support Vector Machine,SVM)、決策樹(隨機森林)和深度學習有最好的分類效果。支持向量機與決策樹需要提取特征,其分類性能取決于特征的有效性,支持向量機利用內積核函數代替向高維空間的非線性映射,但它對大規模訓練樣本難以實施,當樣本很大時,對數據的計算將耗費大量的內存和時間,并且對核函數的求解還沒有找到合適的方法。決策樹適合高維數據,計算量相對較小,且容易轉化成分類規則,但對于各類樣本數量不一致的數據,信息增益偏向于那些更多數值的特征,很容易過擬合,忽略屬性之間的相關性。深度學習是目前性能最好的分類器,它讓計算機自動學習出模式特征,并將特征學習融入到了建立模型的過程中,從而減少了人為設計特征造成的不完備性,但深度學習不能夠對數據的規律進行無偏差的估計,為了達到更好的精度,需要大量的訓練樣本和極大的硬件支持。
發明內容
針對上述現有技術,本發明要解決的技術問題是提供一種將降維與分類相結合的、快速準確的基于線性判別分析與多元自適應樣條的數據分類方法。
為解決上述技術問題,本發明一種基于線性判別分析與多元自適應樣條的分類方法,包括以下步驟:
步驟一:對訓練樣本集中的待分類的M維向量xo進行線性判別分析,得到降維后的向量x,設置降維后的維數為d,具體為:
步驟1:計算類內散度矩陣Sw:
其中,μj為第j類樣本的均值向量,μ為所有樣本的均值向量,k為類別數,Xj為第j類樣本集;
步驟2:計算類間散度矩陣Sb:
其中,Nj(j=1,2,…,k)為第j類樣本的個數;
步驟3:計算矩陣Sw-1Sb;
步驟4:通過矩陣相似對角化計算Sw-1Sb的最大的d個特征值和對應的d個特征向量(w1,w2,…,wd),得到投影矩陣W,W=[w1,w2,…,wd],W為M行d列矩陣;
步驟5:對訓練樣本集中的每一個樣本特征xo,轉化新的樣本x=WTxo,x即為降成d維的向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910357895.7/2.html,轉載請聲明來源鉆瓜專利網。





