[發明專利]基于多標簽學習的無監督特征選擇方法及系統有效
| 申請號: | 201911312573.7 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111027636B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 朱磊;石丹 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李琳 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 學習 監督 特征 選擇 方法 系統 | ||
本公開提供一種基于多標簽學習的無監督特征選擇方法及系統,包括:對獲取的每個數據樣本進行特征提取,得到特征數據集,對特征數據集學習二值多標簽矩陣和特征選擇矩陣,構造基于多標簽學習的無監督特征選擇目標函數;采用基于增廣拉格朗日乘子法的離散優化方法求解基于多標簽學習的無監督特征選擇目標函數,得到特征選擇矩陣;對特征選擇矩陣進行排序確定選擇的目標特征。同時學習用于語義指導的多標簽和執行特征選擇,并在譜嵌入中施加二進制約束得到多標簽來指導最終的特征選擇過程;此外,通過自適應的方式構造動態的樣本相似度圖捕獲數據結構,從而增強多標簽的判別能力。
技術領域
本公開涉及特征選擇技術領域,具體涉及基于多標簽學習的無監督特征選擇方法及系統。
背景技術
隨著信息技術的快速發展,高維數據涌現在不同的研究領域,如多媒體計算,數據挖掘,模式識別和機器學習等。一方面,高維數據可以提供更加豐富的信息。另一方面,它也帶來了一個具有挑戰性的維度災難問題。高維數據中通常包含噪音或異常值,因此直接使用這樣的高維數據往往會給后續的學習任務帶來不好的影響,甚至會降低方法的性能。為了解決該問題,降維技術被提出,降維技術包含兩種不同的處理方法:(1)特征選擇;(2)特征提取。
特征選擇通過選擇重要的、有判別性的特征來降低特征的維度。根據是否依賴數據標簽,特征選擇技術主要分為兩類:(1)有監督的特征選擇;(2)無監督的特征選擇。其中,無監督特征選擇是更實用的,但也是更有難度的任務。對于無監督特征選擇,最關鍵的問題是如何精確地獲取特征信息并且利用它來指導特征的選擇過程。近些年,現有的方法采用譜分析來探索數據的內在信息結構。這些方法包括兩個步驟:首先,通過譜分析創建一個樣本相似度圖;然后,基于譜嵌入來學習特征選擇矩陣。
盡管已經獲得了不錯的性能,但仍存在一些問題需要被進一步解決:(1) 現有的無監督特征選擇方法要么沒有標簽指導,要么使用單標簽來指導選擇特征的過程;前者使得選擇出的特征語義缺失,后者則會造成信息損失。(2)現有的基于圖的特征選擇方法創建的圖質量不高,通常直接在原始的數據上通過高斯核來構建圖,并且該圖在整個模型學習過程中保持固定不變。另外,圖的創建過程和特征選擇過程被分為兩個獨立的過程,也將使得方法產生次優的結果。
因此,提高技術性能的關鍵在于:(1)學習更精確的更適合數據本身的標簽來指導特征選擇。現實世界的數據集包括圖像、視頻、生物學數據等,通常都是多標簽的,而非單一性的。(2)提高圖的質量,將譜分析與特征選擇更好地聯合起來,更準確地指導模型來選擇出有價值的特征。
發明內容
為了克服上述現有技術的不足,本公開提供一種基于多標簽學習的無監督特征選擇方法及系統,同時學習用于語義指導的多標簽并執行特征選擇,在譜嵌入中施加二進制約束得到多標簽來指導最終的特征選擇過程;此外,通過自適應的方式構造動態的樣本相似度圖捕獲數據結構,從而增強多標簽的判別能力。
為了實現上述目的,本公開采用如下技術方案:
第一方面,本公開提供一種基于多標簽學習的無監督特征選擇方法,包括:
對獲取的每個數據樣本進行特征提取,得到特征數據集,對特征數據集學習二值多標簽矩陣和特征選擇矩陣,構造基于多標簽學習的無監督特征選擇目標函數;
采用基于增廣拉格朗日乘子法的離散優化方法求解基于多標簽學習的無監督特征選擇目標函數,得到特征選擇矩陣;
對特征選擇矩陣進行排序確定要選擇的目標特征。
作為可能的一些實現方式,所述基于多標簽學習的無監督特征選擇目標函數為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911312573.7/2.html,轉載請聲明來源鉆瓜專利網。





