[發明專利]一種融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類方法有效
| 申請號: | 202010411275.X | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111626344B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 許磊;陳蕾;李偉澤;宋傳承;林騰濤 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210012 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 稀疏 約束 趨勢 過濾 噪聲 容錯 標簽 分類 方法 | ||
本發明公開了一種融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類方法,首先,抽取訓練集樣本數據的特征表示,訓練集中的每個樣本都帶有事先標注好的語義標簽,并基于特征數據以及標簽數據建立融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類數學模型;其次,通過ADMM算法求解提出的數學模型,得到分類器;最后,基于學得的分類器預測未知樣本的標簽向量。本發明融合組稀疏約束和圖趨勢過濾技術解決了訓練數據中同時含有特征噪聲和樣本噪聲的情況;并通過嵌入特征選擇機制同時學習標簽共有特征以及標簽特有特征,進一步提高了分類性能。
技術領域
本發明屬于機器學習和模式識別領域,具體涉及一種融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類方法。
背景技術
在傳統監督學習中,對于真實世界的每一個對象,在輸入空間用一個屬性向量作為一個示例去刻畫其性質,并在輸出空間用類別標簽去反映該對象的語義信息。將一個示例與其對應的類別標簽相關聯,就得到了一個樣本。在真實世界中,一個樣本可能需要利用多個類標簽去描述。例如,一張關于網球比賽選手的照片中可能會包含“球拍”、“人”、“球”等多個標簽;一首樂曲可能包含“流行”、“電子”、“歡快”等標簽等等。類似的情況在生活中十分常見,這使得多標簽學習成為機器學習領域一個重要的研究熱點。然而,在實際應用中,多標簽學習往往會遇到訓練數據含有噪聲的問題,例如一些訓練樣本的特征數據可能損壞,或是一些樣本的標簽被標錯,或是兩者兼而有之。
現有的大多數多標簽學習方法或是僅考慮到特征噪聲的問題,或是僅解決標簽噪聲的問題,卻少有方法考慮到混合噪聲的情況。忽略上述任意一種噪聲都可能導致訓練出不合理的模型并影響多標簽學習的預測精度。
發明內容
發明目的:為解決多標簽學習中訓練數據含有混合噪聲的問題,本發明提出了一種融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類方法,從而有效地利用組稀疏約束來容忍特定樣本所帶有的特征噪聲和標簽噪聲,并融合特征選擇機制進一步提升分類效果。
發明內容:本發明提出一種融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類方法,包括以下步驟:
(1)抽取訓練集樣本數據的特征表示,訓練集中的每個樣本都帶有事先標注好的語義標簽,并基于特征數據以及標簽數據建立融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類數學模型;
(2)通過ADMM算法求解提出的數學模型,得到分類器;
(3)基于步驟(2)中學得的分類器,預測未知樣本的標簽向量。
進一步地,所述步驟(1)包括以下步驟:
(11)定義與Y=[y1;y2;...;yi;...;yn]∈{0,1}n×c分別為輸入的多標簽特征數據以及標簽數據,其中xi為維度為d的第i個樣本的特征向量,yi表示維度為c的第i個樣本的標簽向量;如果樣本帶有某個標簽,則其標簽向量中的對應元素為1,反之為0;對于任意矩陣定義其L1范數,L2范數以及L2,1范數如下:
(12)建立融合組稀疏約束和圖趨勢過濾的噪聲容錯多標簽分類模型如下:
其中,為基于組稀疏約束的線性回歸損失函數,和為特征選擇項,為圖趨勢過濾正則化項,λ、η和μ為正則化項參數,和為權重矩陣,且Q作為分類器被用于預測樣本標簽。
進一步地,步驟(12)所述的的構造過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010411275.X/2.html,轉載請聲明來源鉆瓜專利網。





