[發明專利]基于凸非負矩陣分解及自適應圖的特征選擇方法和裝置在審
| 申請號: | 202010916772.5 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112036498A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 袁愛紅;游夢博;孟憲城;張文杰;黃家豪 | 申請(專利權)人: | 西北農林科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安銘澤知識產權代理事務所(普通合伙) 61223 | 代理人: | 張舉 |
| 地址: | 712100 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 凸非負 矩陣 分解 自適應 特征 選擇 方法 裝置 | ||
本發明公開了一種基于凸非負矩陣分解及自適應圖的特征選擇方法和裝置,包括獲取輸入數據矩陣;輸入數據矩陣為數據挖掘數據矩陣、機器學習數據矩陣、計算機視覺數據矩陣中的一種;將輸入數據矩陣投影到偽標簽空間,獲得投影模型;將凸非負矩陣分解引入投影模型中,獲得融合模型;對融合模型進行自適應圖約束,確定特征選擇模型;根據特征選擇模型中自表達矩陣行元素的平方和進行排序,選取出排在前N的索引序號,將索引序號對應的特征選擇作為選出的N個特征。本發明通過將凸非負矩陣分解引入到模型中,能很好地挖掘數據間的關系;通過構建自適應圖約束,將自表達和偽標簽矩陣學習巧妙的融合在一起,從而能很好地選出具有表達性和重要性的特征。
技術領域
本發明涉及機器學習技術領域,更具體的涉及一種基于凸非負矩陣分解及自適應圖的特征選擇方法和裝置。
背景技術
在計算機視覺和多媒體數據分析中,大部分的原始數據都具有高維特性,這給計算和存儲都帶來了巨大的困難。在實際應用中,原始數據中的很多特征都是冗余的。因此,如果挑選出原始數據中具有代表性、重要性的特征,會大大提高數據分析的效率,特征選擇就是這樣的一個數據預處理技術。
傳統的基于譜的方法,主要包含兩個步驟。首先,通過圖拉普拉斯或者非負矩陣分解等譜分析方式,對數據的聚類結構進行探索,其次,通過稀疏正則來學習特征選擇矩陣。所有的這類方法將特征選擇和流形學習隔離開來,這就使得流形結構只能從原始數據中獲得,在后續的處理中不在變化。這會導致無限制的回歸模型在優化求解數據的嵌入內在結構時,很容易遭遇平凡解。
此外,基于嵌入的方法受到研究者的廣泛關注,基于嵌入的方法主要包含兩類模塊:基于自表達的模塊和基于偽標簽矩陣學習模塊。自表達模塊用于探索數據樣本之間的相關性,而偽標簽矩陣學習模塊則嘗試學習數據矩陣的真是標簽,將無監督特征選擇轉換為“監督學習”任務,都有利于模型選出根據表達性和重要性的特征。此外,偽標簽矩陣可以看作是原始數據的低緯流行,且這兩個模塊都可以提高特征選擇的性能。因此,有必要將自表達模塊和偽標簽矩陣學習模塊嵌入到特征選擇中。現有的基于嵌入的方法,基本都是要么是自表達+圖約束的結構框架,要么是偽標簽學習+圖約束的結構框架,沒能同時將自表達模塊和偽標簽學習模塊融入融入到一個模型中,由于二者結合困難,也就是不能將二者簡單的加在模型中,因為將二者簡單相加,二者在優化求解時不能形成互動,因此不能相互促進,對特征選擇不能起到疊加效果。
綜上所述,現有方法的缺點主要有以下兩點:
(1)基于譜分析的方法,由于圖相似矩陣提前定義好,在特征選擇階段不再更改,易導致模型得到平凡解;
(2)現有的模型沒有將自表達學習模塊和偽標簽矩陣學習模塊很好地融合在一個特征選擇模型里,沒有解決二者結合困難的問題。
發明內容
本發明實施例提供一種基于凸非負矩陣分解及自適應圖的特征選擇方法和裝置,用以解決上述背景技術中提出的問題。
本發明實施例提供一種基于凸非負矩陣分解及自適應圖的特征選擇方法,包括:
獲取輸入數據矩陣;所述輸入數據矩陣為數據挖掘數據矩陣、機器學習數據矩陣、計算機視覺數據矩陣中的一種;
將輸入數據矩陣投影到偽標簽空間,獲得投影模型;
將凸非負矩陣分解引入投影模型中,獲得融合模型;
對融合模型進行自適應圖約束,確定特征選擇模型;
根據特征選擇模型中自表達矩陣行元素的平方和進行排序,選取出排在前N的索引序號,將索引序號對應的特征選擇作為選出的N個特征。
進一步地,所述投影模型,如下所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北農林科技大學,未經西北農林科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010916772.5/2.html,轉載請聲明來源鉆瓜專利網。





