[發明專利]一種面向標記噪聲的多標記分類方法有效
| 申請號: | 202010583875.4 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111783788B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 張敏靈;方軍鵬 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06V10/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 顏盈靜 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 標記 噪聲 分類 方法 | ||
本發明公開了一種面向標記噪聲的多標記分類方法,該方法適用于標記空間含有噪聲的多標記數據分類場景,具體包括以下步驟:(1)用戶在保證完全獲得真實標記的前提下收集多標記數據;(2)利用ECOC編碼對原始標記進行embedding,按照ECOC編碼重新為每個碼字選擇正負訓練樣本;(3)基于每個碼字重構的二類分類集訓練二類分類模型;(4)根據訓練所得分類模型對未見示例進行預測,得到每個碼字上的分類結果;(5)根據歐式距離計算原始空間每個標記的ECOC編碼和未見示例的預測編碼之間的距離,將滿足篩選條件的標記視為未見示例的真實標記;(6)如果用戶對預測結果滿意,則結束,否則轉到步驟(2),對原始標記重新進行ECOC編碼。
技術領域
本發明涉及一種面向標記噪聲的多標記分類方法,屬于弱監督分類技術領域。
背景技術
在傳統的監督學習中,每一個示例都有單一和明確的標記,基于此前提的諸多監督學習方法都已經取得了巨大的成功。但是在實際應用中,我們獲得的標記信息往往是多個而且可能是不準確的。所以研究者們提出了半監督學習、多標記學習、偏標記學習和多示例學習等框架用于解決此類困難。
含噪多標記學習是一種新型的學習框架,它可以看作是多標記學習和偏標記學習的結合。在多標記學習中,一個示例對應多個真實標記;在偏標記學習中,一個示例對應一個候選標記的集合,但是集合中只包含一個真實標記。而在含噪多標記學習中,一個示例對應一個候選標記的集合,集合中有一個或多個真實標記。含噪多標記學習的目標就是利用含有噪聲的數據集訓練一個多標記預測器,它能夠預測出未見示例的所有真實標記。目前主流的方法是利用標記置信度等手段對數據集進行降噪,然后加以訓練,但是這樣的方法不能保證降噪的效果,因此在訓練的過程中仍然會受到噪聲標記的影響。
發明內容
本發明針對含噪多標記數據的數據特性以及降噪的預處理步驟的不確定性加以改進,通過ECOC編碼直接利用含噪數據,免去降噪步驟,充分利用原始數據來提升分類的性能。
技術方案:一種面向標記噪聲的多標記分類方法,包括以下步驟:
步驟1:獲取具有真實標記的多標記樣本數據D={(xi,Yi)|1≤i≤m},其中xi表示第i個樣本數據,Yi表示xi對應的候選標記集合,m表示收集的多標記樣本數量;
步驟2:構建編碼矩陣,其中,編碼矩陣的每一行表示類別標記的編碼,其每一列表示對標記的一個劃分;通過構建的編碼矩陣的第一列對步驟1獲取到的多標記樣本數據的標記進行劃分得到第一列對應的子訓練集,以此類推直至得到編碼矩陣最后一列對應的子訓練集;
步驟3:采用編碼矩陣的第一列對應的子訓練集對二類分類器進行訓練,得到其對應可用的二類分類器;以此類推直至完成編碼矩陣最后一列對應的二類分類器的訓練;
步驟4:將待分類數據輸入至步驟3訓練好的所有二類分類器中進行分類,得到與編碼矩陣每一列對應的預測標記;
步驟5:根據歐式距離,計算待分類數據的預測標記的編碼碼字與編碼矩陣的每行碼字之間的距離,將滿足距離閾值的預測標記視為待分類數據的真實標記;
步驟6:判斷步驟5得到的待分類數據的真實標記是否滿足用戶要求,若滿足,則結束,否則轉到步驟2,對編碼矩陣進行調整。
進一步的,所述步驟2具體為:
步驟2.1:定義一個q×L的ECOC編碼矩陣M∈{+1,-1}q×L,用于對多標記樣本數據的標記空間進行表示,其中,M的每一行M(j,:)的長度為L,其表示類別標記yj的編碼,M的每一列M(:,l)表示對標記的一個劃分,初始階段,該編碼矩陣為空矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010583875.4/2.html,轉載請聲明來源鉆瓜專利網。





