[發明專利]基于EMD度量的對偶正則化非負矩陣分解的聚類方法在審
| 申請號: | 202010536081.2 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111753894A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 舒振球;張云猛;翁宗慧;葉飛躍 | 申請(專利權)人: | 江蘇理工學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 朱曉凱 |
| 地址: | 213011 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 emd 度量 對偶 正則 化非負 矩陣 分解 方法 | ||
本發明提供一種基于EMD度量的對偶正則化非負矩陣分解的聚類方法,所述方法包括以下步驟:步驟一:獲取待聚類的樣本數據;步驟二:針對待聚類樣本構建其數據流形圖的鄰接矩陣和特征流形圖的鄰接矩陣;步驟三:通過數據流形圖正則化項與特征流形圖正則化項,得到基于EMD度量的對偶正則化非負矩陣分解的目標函數;步驟四:根據目標函數使用迭代加權的方法,設置迭代次數,對NMF中的系數矩陣與基矩陣進行迭代更新;步驟五:采用k?means聚類算法對迭代更新后的數據樣本進行聚類。利用幾何結構信息量提高NMF的性能,采用EMD的度量方式更好地度量樣本之間的距離。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種基于EMD度量的對偶正則化非負矩陣分解的聚類方法。
背景技術
近幾年,高維數據在許多領域里出現,對其進行降維操作引起了人們的注意。非負矩陣分解(NMF)作為一種常用的降維方法,目標在于學習基于局部的特征表示,已經被廣泛用于各種應用研究中。聚類是機器學習和數據挖掘的一個基本課題,目的是根據數據點的相似性將一組數據劃分為若干組。非負矩陣因式分解(NMF)由于其對自然發生數據的心理和生理解釋,在人類大腦中可能以部分為基礎而受到廣泛關注。雖然NMF具有良好的實際性能,但它的一個缺點是忽略了數據集的固有結構。一方面,樣本可能在流形上,因此人們希望利用幾何信息來提高NMF的性能。另一方面,由于特征之間可能相互關聯,傳統的L2距離不能很好地度量樣本之間的距離。雖然有人提出了一些工作來解決這些問題,但很少有人把它們聯系在一起。
發明內容
針對現有技術的不足,本發明提供了一種基于EMD度量的對偶正則化非負矩陣分解的聚類方法,通過利用數據流形和特征相關知識的新方法,并在NMF中加入了數據流形與特征流形的圖正則化項,通過實驗證明該方法能夠提升聚類的效果。
本發明提供一種基于EMD度量的對偶正則化非負矩陣分解的聚類方法,所述方法包括以下步驟:
步驟一:獲取待聚類的樣本數據;
步驟二:針對待聚類樣本構建其數據流形圖的鄰接矩陣和特征流形圖的鄰接矩陣;
步驟三:通過數據流形圖正則化項與特征流形圖正則化項,得到基于EMD度量的對偶正則化非負矩陣分解的目標函數;
步驟四:根據目標函數使用迭代加權的方法,設置迭代次數,對NMF中的系數矩陣與基矩陣進行迭代更新;
步驟五:采用k-means聚類算法對迭代更新后的數據樣本進行聚類。
進一步改進在于:所述步驟三中建立的目標函數O的公式為
其中λ表示熵正則項系數,ξ,σ分別為特征流形空間近鄰圖正則項系數與數據流形空間近鄰圖正則項系數,第一項表示用EMD的度量方法來重建誤差,第二項表示由最近鄰圖建立的特征空間的圖正則項,第三項表示由最近鄰圖建立的數據空間的圖正則項。
進一步改進在于:所述步驟四中的系數矩陣與基矩陣進行迭代更新,其中基矩陣U的更新規則為
系數矩陣V的更新規則為
本發明的有益效果是:通過利用數據流形和特征相關知識的新方法,并在NMF中加入了數據流形與特征流形的圖正則化項,與傳統的聚類方法相比,考慮到了數據本身的流形結構,利用幾何結構信息量提高NMF的性能,采用EMD的度量方式更好地度量樣本之間的距離。
附圖說明
圖1是本發明的方法流程示意圖。
圖2是本發明的物品檢測實施例圖。
圖3是本發明的人臉檢測實施例圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇理工學院,未經江蘇理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010536081.2/2.html,轉載請聲明來源鉆瓜專利網。





