[發明專利]一種基于監督學習和半監督學習雙重信息的迭代式標簽噪聲識別算法有效
| 申請號: | 201710315861.2 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107292330B | 公開(公告)日: | 2021-08-06 |
| 發明(設計)人: | 關東海;魏紅強;袁偉偉 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211100 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 雙重 信息 迭代式 標簽 噪聲 識別 算法 | ||
1.一種基于監督學習和半監督學習雙重信息的迭代式標簽噪聲識別方法,其特征在于,包括以下步驟:
步驟1)確定算法輸入變量,包括待處理樣本集L和無標簽樣本集U,最大迭代次數maxIter,多次投票次數numVote,噪聲識別判定投票信任度numFinalConfodence,隨機分塊數numCross,分類器個數numClassifier,噪聲識別投票信任度numConfidence,判別噪聲的信任度閾值ConfidenceThreshold,初始化多次投票次數t=1,迭代次數m=1,初始化待處理樣本集E=L;
步驟2)將E隨機分成numCross個大小一致的子集其中i=1:n,初始化參數i=1;
步驟3)用集合中樣本做訓練數據,選擇numClassifier個不同的分類算法,訓練numClassifier個不同的分類器H1,H2,...,HnumClassifier;
步驟4)用H1,H2,...,HnumClassifier對樣本集中樣本分類,分別計算每個樣本的numConfidence,并將計算結果存入一張表中;
步驟5)迭代執行步驟2)至步驟4),每次迭代后i值加1,直到i值等于numCross,停止迭代,計算出這一次投票完成后所有的樣本的numConfidence并存入一張表中;
所述步驟4)和步驟5)中,所述的表中的每個元素,對應的是每個待處理樣本集E中的每個樣本以及他們被正確標記的可能性numConfidence;
步驟6)迭代執行步驟2)至步驟5),每次迭代后t值加1,直到t=numVote為止,生成numVote個表;
步驟7)綜合分析numVote個表,對每個樣本的numConfidence進行統計,獲得每個樣本e的numFinalConfidence(e),并存入一張表格中;初始化一個En,將numFinalConfidence(e)小于預定的ConfidenceThreshold的樣本視為可疑樣本存入En;
所述步驟7)中的ConfidenceThreshold值選定為0.1-0.4之間的一個數值;
步驟8)將E’=E-En作為訓練集,基于numclassifier個分類方法,生成numclassifier個分類器,用這些分類器對無標簽樣本集U進行標記,得到一個樣本集;
步驟9)將數據集E作為測試集,標記后的數據集作為訓練集,通過加權KNN算法,計算出每個樣本的numFinalConfidence(e)’,并存入一張表格中;
步驟10)將包含numFinalConfidence(e)的表格和包含numConfidence的表格中的相同樣例的數值,進行相加求平均值,得到最終的Confdence表格,對于數值小于指定閾值ConfidenceThreshold的樣本,被視為噪聲;設檢測到的噪聲為則
步驟11)迭代執行步驟2)至步驟10),每次迭代后,m值加1,直到或m=maxIter為止;
步驟12)返回E值,E為刪除噪聲后的純凈樣本集,方法結束。
2.根據權利要求1所述的基于監督學習和半監督學習雙重信息的迭代式標簽噪聲識別方法,其特征在于:所述步驟3)中,numClassifier選定為奇數。
3.根據權利要求2所述的基于監督學習和半監督學習雙重信息的迭代式標簽噪聲識別方法,其特征在于:設置所述的numClassifier=3。
4.根據權利要求1所述的基于監督學習和半監督學習雙重信息的迭代式標簽噪聲識別方法,其特征在于:所述步驟7)中ConfidenceThreshold值通過獨立的校驗樣本,計算優化;具體步驟包括:a)根據先驗知識估計待處理噪聲數據的噪聲比,b)在校驗樣本中加入隨機噪聲,c)遍歷可能的ConfidenceThreshold數值并計算該數值下識別方法對校驗樣本中噪聲的識別準確度,d)選擇具有更高識別準確度的ConfidenceThreshold。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710315861.2/1.html,轉載請聲明來源鉆瓜專利網。





