[發明專利]一種基于聚類和特征匹配的改進kNN算法在審
| 申請號: | 201811376522.6 | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109508747A | 公開(公告)日: | 2019-03-22 |
| 發明(設計)人: | 孫善寶;羅清彩;于治樓 | 申請(專利權)人: | 濟南浪潮高新科技投資發展有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征匹配 聚類 樣本 分類樣本 樣本特征 改進 數據挖掘技術 機器學習 聚類算法 快速檢索 快速匹配 影響分類 索引 分類 | ||
1.一種基于聚類和特征匹配的改進kNN算法,其特征在于:計算全部已知樣本特征Hash值作為標識,生成索引用于快速檢索,實現待分類樣本的快速匹配分類;確定影響分類結果的主要特征,將樣本特征空間進行劃分,并通過聚類算法形成已知樣本簇,生成Hash作為樣本簇特征,計算待分類樣本的特征Hash值,完成特征匹配以縮小近鄰樣本范圍,減少計算已知樣本與待分類樣本間距離的計算。
2.根據權利要求1所述的基于聚類和特征匹配的改進kNN算法,其特征在于:主要包括以下步驟:
S01、計算所有已知樣本的特征向量的Hash值作為標識;
S02、將所有已知樣本的Hash值標識生成索引,用于搜索;
S03、通過特征分析確定樣本特征對于分類結果的影響程度;
S04、使用聚類算法根據主要影響特征將已知樣本空間的樣本形成多個樣本簇;
S05、根據樣本簇,計算聚類結果主要特征的Hash值,得到代表該樣本簇的多個標識;
S06、將已知樣本關聯其樣本簇,并保存其分類結果及樣本簇標識;
S07、如果樣本簇里的數據規模仍很大,繼續根據其他影響特征進行該樣本簇內聚類分析,形成更小的樣本簇,返回執行步驟S05;
S08、將聚類算法得到的樣本簇標識生成索引,用于搜索;
S09、反復設定K值進行訓練,計算測試訓練集的誤差率,選取誤差率最小的K值;
S10、計算待分類樣本特征向量的Hash值,利用全部已知樣本的特征Hash標識索引進行搜索;
S11、若找到匹配標識,則該匹配標識對應的分類結果為待分類樣本的分類結果,算法結束,否則執行步驟S12;
S12、計算待分類樣本特征向量主要影響特征的Hash值,利用已知樣本簇的特征Hash標識索引進行搜索;
S13、若找不到匹配標識,則后續分類采用的樣本空間為當前搜索樣本空間,執行步驟S15,若找到匹配標識,則執行步驟S14;
S14、判斷該匹配標識對應的樣本簇是否還能繼續劃分,若可以繼續劃分,則該匹配標識對應的樣本簇為新的搜索樣本空間,直到找到無法匹配標識的樣本簇,則當前搜索樣本空間為后續分類采用的樣本空間;
S15、遍歷步驟S13或S14得到的樣本空間,計算待分類樣本特征向量與已知向量的距離,挑選出K個最近距離的已知樣本;
S16、計算K個元組的多數類,作為待分類樣本的類別。
3.根據權利要求2所述的基于聚類和特征匹配的改進kNN算法,其特征在于:還包括以下步驟:
S17、實際確定待分類樣本的類別,并加入到已知樣本空間,持續優化算法。
4.根據權利要求3所述的基于聚類和特征匹配的改進kNN算法,其特征在于:步驟S01中,將特征向量的Hash值與特征向量及已知樣本的分類標簽一同存儲。
5.根據權利要求4所述的基于聚類和特征匹配的改進kNN算法,其特征在于:步驟S3中,對所有已知樣本的特征進行分析,確定特征樣本對分類結果的影響程度,并將影響程度進行量化。
6.根據權利要求5所述的基于聚類和特征匹配的改進kNN算法,其特征在于:對影響程度進行量化采用隨機數方式進行。
7.根據權利要求5所述的基于聚類和特征匹配的改進kNN算法,其特征在于:所述Hash算法采用SHA512算法。
8.根據權利要求7所述的基于聚類和特征匹配的改進kNN算法,其特征在于:所述聚類算法采用K-MEANS算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南浪潮高新科技投資發展有限公司,未經濟南浪潮高新科技投資發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811376522.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于卷積神經網絡的脈沖星候選體識別方法
- 下一篇:一種聚類方法及裝置





