[發明專利]一種面向標記噪聲的多標記分類方法有效
| 申請號: | 202010583875.4 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111783788B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 張敏靈;方軍鵬 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06V10/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 顏盈靜 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 標記 噪聲 分類 方法 | ||
1.一種面向標記噪聲的多標記分類方法,其特征在于:包括以下步驟:
步驟1:獲取具有真實標記的多標記樣本數據D={(xi,Yi)|1≤i≤m},其中xi表示第i個樣本數據,Yi表示xi對應的候選標記集合,m表示收集的多標記樣本數量;
步驟2:構建編碼矩陣,其中,編碼矩陣的每一行表示類別標記的編碼,其每一列表示對標記的一個劃分;通過構建的編碼矩陣的第一列對步驟1獲取到的多標記樣本數據的標記進行劃分得到第一列對應的子訓練集,以此類推直至得到編碼矩陣最后一列對應的子訓練集;
步驟3:采用編碼矩陣的第一列對應的子訓練集對二類分類器進行訓練,得到其對應可用的二類分類器;以此類推直至完成編碼矩陣最后一列對應的二類分類器的訓練;
步驟4:將待分類數據輸入至步驟3訓練好的所有二類分類器中進行分類,得到與編碼矩陣每一列對應的預測標記;
步驟5:根據歐式距離,計算待分類數據的預測標記的編碼碼字與編碼矩陣的每行碼字之間的距離,將滿足距離閾值的預測標記視為待分類數據的真實標記;
步驟6:判斷步驟5得到的待分類數據的真實標記是否滿足用戶要求,若滿足,則結束,否則轉到步驟2,對編碼矩陣進行調整。
2.根據權利要求1所述的一種面向標記噪聲的多標記分類方法,其特征在于:所述步驟2具體為:
步驟2.1:定義一個q×L的ECOC編碼矩陣M∈{+1,-1}q×L,用于對多標記樣本數據的標記空間進行表示,其中,M的每一行M(j,:)的長度為L,其表示類別標記yj的編碼,M的每一列M(:,l)表示對標記的一個劃分,初始階段,該編碼矩陣為空矩陣;
步驟2.2:引入q維向量v={v1,v2,...,vq}T∈{+1,-1}q,其各個元素的取值隨機決定,向量v將樣本數據的標記空間劃分為兩類和其中:
若樣本數據對應的候選標記集合能完全落入則將該樣本數據劃分為正例;若樣本數據對應的候選標記集合能完全落入則將該樣本數據劃分為反例;
將基于當前向量v進行劃分得到的正例與反例組成子訓練集
步驟2.3:判斷步驟2.2得到的子訓練集的元素個數是否大于等于最小值τ_all,正例個數是否同時滿足大于等于設定閾值τ_pos,反例個數是否同時滿足大于等于設定閾值τ_neg,若三者同時滿足,則將當前向量v作為編碼矩陣M的一列,并執行步驟2.4;否則:重新隨機產生向量v,執行步驟2.2;
步驟2.4:判斷當前編碼矩陣M的列數是否達到預設的碼長L,若超過,則得到可用的編碼矩陣,否則重新隨機產生向量v,執行步驟2.2。
3.根據權利要求2所述的一種面向標記噪聲的多標記分類方法,其特征在于:所述步驟3具體包括以下步驟:
采用線性支持向量機生成二類分類器hl(1≤l≤L);
采用編碼矩陣的第一列對應的子訓練集對二類分類器進行訓練,得到其對應可用的二類分類器;
以此類推直至完成編碼矩陣最后一列對應的二類分類器的訓練。
4.根據權利要求3所述的一種面向標記噪聲的多標記分類方法,其特征在于:所述步驟4包括:
待分類數據表示為將待分類數據輸入至步驟4訓練好的所有二類分類器中進行分類,得到長度為L的預測標記:
h(x*)=[sign(h1(x*)),sign(h2(x*)),...,sign(hL(x*))]
其中,hl(x*)(1≤l≤L)表示待分類數據x*在二類分類器上的預測置信度,sign(x)為符號函數,當x>0時,sign(x)返回+1,當x<0時,sign(x)返回-1,當x=0時,sign(x)返回0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010583875.4/1.html,轉載請聲明來源鉆瓜專利網。





