[發明專利]基于局部類別一致聚類和多任務學習的分類方法及設備在審
| 申請號: | 201710662859.2 | 申請日: | 2017-08-04 |
| 公開(公告)號: | CN107563410A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 胡衛明;毛雪 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙)11482 | 代理人: | 郭文浩,王世超 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 局部 類別 一致 任務 學習 分類 方法 設備 | ||
技術領域
本發明涉及機器學習領域,具體涉及非線性分類技術,特別涉及一種基于局部類別一致聚類和多任務學習的分類方法及處理設備。
背景技術
隨著大數據時代的來臨,從諸多的數據中選取出具有相同或相似特征的數據變得越來越重要,通過對數據的聚類分析,將數據分為不同類別的應用組合。支持向量機(Support Vector Machine,SVM)是建立在統計學習理論基礎上的機器學習方法,可以分析數據,識別模式,用于分類和回歸分析,能夠在學習能力與模型復雜度之間尋求最佳平衡點。將數據點之間的內積替換為核函數,就可以將線性分類器轉換為非線性分類器,即將線性的SVM轉換為kernel SVM。
但kernel SVM的訓練和測試速度都比較慢。Kernel SVM的訓練過程對應于求解一個凸二次優化問題,涉及大量的矩陣運算,需要耗費大量的時間。由于需要存儲核函數矩陣,矩陣的大小與訓練樣本的數目成平方關系,因此空間復雜度也很高。Kernel SVM的測試速度也比較慢,對于一個測試樣本,需要將它與所有支持向量計算核函數,然后加權求和才能得到最終的分類決策,其測試復雜度是與支持向量的數目成正比的,所以SVM的測試復雜度也比較高。
由于線性SVM訓練和測試都比較快,目前有一類方法通過集成多個線性SVM取代kernel SVM對非線性數據進行分類。即使是非線性的決策邊界,它也應該是光滑的,即在局部是線性的。這類方法就是在局部學習線性的SVM以對非線性數據進行分類。具體地,采用分而治之的策略:首先將數據劃分為一些聚類,然后在每個聚類上訓練一個線性SVM。但上述方法存在如下兩個問題:(1)聚類和在每個聚類上訓練SVM這兩步通常是相互獨立的,它們是不能相互促進的,如果聚類效果不好,在每個聚類上訓練線性SVM的效果也不會好;(2)這類方法通常將這多個線性SVM單獨進行學習,這很容易導致在訓練單個SVM時出現過擬合現象。
發明內容
為了解決現有技術中的上述問題,即為了解決kernel SVM訓練和測試速度慢,以及,多個線性SVM取代kernel SVM對非線性數據進行分類中所存在的聚類和在聚類上訓練SVM之間不能相互促進,以及訓練單個SVM時出現過擬合現象等問題,本發明采用以下技術方案以解決上述問題:
第一方面,本申請提供了基于局部類別一致聚類和多任務學習的分類方法,該方法包括如下步驟:
步驟1:利用K-均值對待分類數據進行聚類操作,生成多個第一聚類,在每個上述第一聚類上訓練一個線性的第一支持向量機,根據上述第一聚類和上述第一支持向量機生成初始分類模型的參數。
步驟2:根據局部類別一致聚類的方法將上述待分類數據劃分為多個第二聚類,在每個上述第二聚類上訓練一個線性的第二支持向量機。
步驟3:在一個產生式圖模型中融合上述第二聚類和訓練上述第二支持向量機。
步驟4:使用多任務學習方法同時學習上述第二支持向量機,并在各個上述第二支持向量機之間遷移知識,上述知識為由屬性或特征組成的特征信息。
步驟5:利用期望最大化算法來求解上述局部類別一致聚類的參數和上述第二支持向量機的參數,并根據上述局部類別一致聚類的參數和上述第二支持向量機的參數更新上述初始分類的參數,生成分類模型。
步驟6:利用上述分類模型來對上述待分類數據進行分類。
在一些示例中,上述步驟1包括:
步驟11:使用K-均值對上述待分類數據進行聚類操作,生成多個第一聚類。
步驟12:計算每個第一聚類的第一混合系數、第一均值向量和第一協方差矩陣。
步驟13:在每個聚類上訓練一個線性的第一支持向量機,獲得K個線性支持向量機。
步驟14:根據上述第一混合系數、第一均值向量、第一協方差矩陣和各個第一支持向量機的權重向量,計算初始分類模型的參數。
在一些示例中,上述步驟2包括:
步驟21:使用局部一致高斯混合模型對所述待分類數據進行聚類操作,生成第二聚類,其中,所述局部一致高斯混合模型是局部一致正則化項下的高斯模型;
步驟22:計算每個第二聚類的第二混合系數、第二均值向量和第二協方差矩陣,生成所述第二聚類的參數。
步驟23:在每個所述第二聚類上訓練一個線性的第二支持向量機。
在一些示例中,上述步驟3包括:
步驟31:在產生式模型中,融合所述第二聚類和所述第二聚類上訓練的線性的第二支持向量機。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710662859.2/2.html,轉載請聲明來源鉆瓜專利網。





