[發(fā)明專利]一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動的噪聲修正算法在審
| 申請?zhí)枺?/td> | 202211420837.2 | 申請日: | 2022-11-15 |
| 公開(公告)號: | CN115578568A | 公開(公告)日: | 2023-01-06 |
| 發(fā)明(設(shè)計)人: | 沈復(fù)民;姚亞洲;張傳一;孫澤人;白濘瑋 | 申請(專利權(quán))人: | 南京碼極客科技有限公司 |
| 主分類號: | G06V10/30 | 分類號: | G06V10/30;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 安徽宏鐸知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 34250 | 代理人: | 菅秀君 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 小規(guī)模 可靠 數(shù)據(jù) 驅(qū)動 噪聲 修正 算法 | ||
1.一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動的噪聲修正算法,用于提升高噪聲類別的識別準確率,其特征在于,包括如下步驟:
S1.對訓(xùn)練集D進行分類;
S2.采用一個骨干網(wǎng)絡(luò)f作為特征提取器,并為之搭配兩個并行的全連接層作為預(yù)測頭,并且輸入圖像特征,可輸出相應(yīng)的預(yù)測概率分布;
S3.使用元預(yù)測頭的預(yù)測概率作為偽標簽,利用偽標簽修正網(wǎng)絡(luò)圖像中錯誤的標簽,聯(lián)合使用偽標簽和網(wǎng)絡(luò)標簽類訓(xùn)練模型對高比例噪聲進行緩解,具體為:
S31.借助小損失準則在每個小批次中識別標簽噪聲;
S32.在干凈樣本和分部內(nèi)燥樣本聲被識別后,可被用作模型訓(xùn)練;
S4.依靠選擇網(wǎng)絡(luò)有效選擇出分布內(nèi)噪聲樣本,并通過重標注重新利用。
2.根據(jù)權(quán)利要求1所述的一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動的噪聲修正算法,其特征在于,在S1中,訓(xùn)練集包括網(wǎng)絡(luò)集和元集,其中含噪的網(wǎng)絡(luò)訓(xùn)練集和小規(guī)模的元集分別表示為和,其中 M ? N,元集 Dm 的標簽為人工標注,每個樣本表示為 (xi, yi),且包含了圖像 xi 以及其對應(yīng)的標簽 yi。
3.根據(jù)權(quán)利要求1所述的一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動的噪聲修正算法,其特征在于,在S2中,預(yù)測頭分別是網(wǎng)絡(luò)預(yù)測頭 hw 和元預(yù)測頭 hm,骨干網(wǎng)絡(luò)、網(wǎng)絡(luò)預(yù)測頭 hw 和元預(yù)測頭 hm參數(shù)分別記為 θf、θhw以及 θhm;骨干網(wǎng)絡(luò) f 和網(wǎng)絡(luò)預(yù)測頭 hw 可組成用于細粒度識別的分類網(wǎng)絡(luò) h,其參數(shù)記為θh={θf,θhw},此外,還涉及一個選擇網(wǎng)絡(luò) Snet,其參數(shù)定義為 θs;獨熱標簽的分布 q 表示為 q(c = yi|xi) = 1, q(c ≠yi|xi) = 0,其中 c 表示各個類別;為了提升模型的泛化性,采用標簽平滑策略,平滑后的標簽分布表示為q(c = yi|xi) = 1 ? ?, q(c ≠yi|xi) =,其中 C 表示類別總數(shù);
對于訓(xùn)練集 D 中的每組樣本 (xi, yi),分類網(wǎng)絡(luò) h 和元預(yù)測頭 hm 輸出的概率分布分別表示為 p(c|xi;θh) 和 p(c|xi;θhm);將 p(c|xi;θhm) 簡記為 pm(c|xi);選用常用的交叉熵損失函數(shù)來計算每個訓(xùn)練樣本的預(yù)測概率分布 p(c|xi;θh) 和其標簽分布 q(c|xi) 之間的損失,其公式為:
(6.1)。
4.根據(jù)權(quán)利要求1所述的一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動的噪聲修正算法,其特征在于,在S31中,模型在訓(xùn)練過程中會先學(xué)習干凈的樣本,然后再逐步擬合標簽噪聲,首先在模型預(yù)處理階段T ≤ Ts,T 和 Ts 分別表示訓(xùn)練周期和預(yù)處理周期,直接利用整個數(shù)據(jù)集 D 來訓(xùn)練分類網(wǎng)絡(luò) θh;在此階段,對于每個迭代 t 中的小批次數(shù)據(jù),使用學(xué)習率為α的隨機梯度下降優(yōu)化器來訓(xùn)練模型:
(6.2)
經(jīng)過預(yù)處理階段T ≥ Ts后,開始處理網(wǎng)絡(luò)數(shù)據(jù)集 Dw 中的標簽噪聲,對于網(wǎng)絡(luò)數(shù)據(jù)集 Dw 中的每個小批次,首先選取 (1 ? τ ) × 100% 比例的小損失樣本作為干凈樣本,以此將該小批次劃分為干凈批和噪聲批:
(6.3)
(6.4)
其中,τ 表示為樣本丟棄率,即噪聲率。
5.根據(jù)權(quán)利要求4所述的一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動的噪聲修正算法,其特征在于,干凈批中的訓(xùn)練樣本直接被應(yīng)用于模型優(yōu)化;噪聲批中的圖像被輸入進選擇網(wǎng)絡(luò) Snet 中來計算其屬于分布內(nèi)噪聲的概率 Pin,進行進一步的樣本篩選:
(6.5)
之后,有較高 Pin 的樣本被識別為分布內(nèi)噪聲樣本,并將經(jīng)過重標注后再度應(yīng)用于訓(xùn)練中,其他樣本則被認為是分布外噪聲并直接丟棄;分布內(nèi)樣本的獲取公式為:
(6.6)
其中,r 是基于小批次數(shù)據(jù)大小的重標注率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京碼極客科技有限公司,未經(jīng)南京碼極客科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211420837.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





