[發(fā)明專利]一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動(dòng)的噪聲修正算法在審
| 申請(qǐng)?zhí)枺?/td> | 202211420837.2 | 申請(qǐng)日: | 2022-11-15 |
| 公開(公告)號(hào): | CN115578568A | 公開(公告)日: | 2023-01-06 |
| 發(fā)明(設(shè)計(jì))人: | 沈復(fù)民;姚亞洲;張傳一;孫澤人;白濘瑋 | 申請(qǐng)(專利權(quán))人: | 南京碼極客科技有限公司 |
| 主分類號(hào): | G06V10/30 | 分類號(hào): | G06V10/30;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 安徽宏鐸知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 34250 | 代理人: | 菅秀君 |
| 地址: | 210000 江蘇省南京*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 小規(guī)模 可靠 數(shù)據(jù) 驅(qū)動(dòng) 噪聲 修正 算法 | ||
本發(fā)明公開一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動(dòng)的噪聲修正算法,包括S1.采用骨干網(wǎng)絡(luò)作為特征提取器,并為之搭配兩個(gè)并行的全連接層作為預(yù)測(cè)頭,輸入圖像特征,可輸出相應(yīng)的預(yù)測(cè)概率分布;S2.使用元預(yù)測(cè)頭的預(yù)測(cè)概率作為偽標(biāo)簽,利用偽標(biāo)簽修正網(wǎng)絡(luò)圖像中錯(cuò)誤的標(biāo)簽,聯(lián)合使用偽標(biāo)簽和網(wǎng)絡(luò)標(biāo)簽類訓(xùn)練模型對(duì)高比例噪聲進(jìn)行緩解;S3.依靠選擇網(wǎng)絡(luò)有效選擇出分布內(nèi)噪聲樣本,并通過重標(biāo)注重新利用;本發(fā)明算法能有效地緩解標(biāo)簽噪聲問題,并緩解了部分類別存在的高比例噪聲問題。
技術(shù)領(lǐng)域
本發(fā)明涉及高比例噪聲修正技術(shù)領(lǐng)域,具體為一種小規(guī)模可靠數(shù)據(jù)集驅(qū)動(dòng)的噪聲修正算法。
背景技術(shù)
噪聲數(shù)據(jù)集的復(fù)雜性體現(xiàn)在噪聲比例在各個(gè)類別之間是非均衡的,噪聲類別(分布內(nèi)、分布外)也是非均衡的,并且噪聲比例可能異常地高,標(biāo)簽噪聲甚至可能淹沒干凈樣本。這些復(fù)雜的實(shí)際情況大大增加了處理標(biāo)簽噪聲的難度。解決策略的復(fù)雜性體現(xiàn)在可以不局限于僅使用深度神經(jīng)網(wǎng)絡(luò)模型本身來解決復(fù)雜的標(biāo)簽噪聲問題,可以設(shè)計(jì)更貼近于現(xiàn)實(shí)應(yīng)用的算法。在此背景下,部分研究者嘗試借助干凈可靠的數(shù)據(jù)集來為模型提供先驗(yàn)知識(shí),以此在含噪的數(shù)據(jù)集中實(shí)現(xiàn)高性能的噪聲凈化。
在發(fā)表于2018年Conference on Neural Information Processing Systems會(huì)議上的“Using trusted data to train deep networks on labels corrupted by severenoise”文章中,提出了一種基于小規(guī)模干凈樣本的標(biāo)簽修正算法,用來克服高比例的標(biāo)簽噪聲。該算法借助干凈樣本提供的先驗(yàn)知識(shí),有效地在高噪聲環(huán)境下估計(jì)了噪聲轉(zhuǎn)換矩陣,并使用噪聲轉(zhuǎn)換矩陣來修正模型的訓(xùn)練損失。在發(fā)表于2017年IEEE InternationalConference on Computer Vision會(huì)議上的“Learning from noisy labels withdistillation”文章中,使用了一個(gè)規(guī)模相對(duì)略大的干凈訓(xùn)練集,訓(xùn)練了一個(gè)教師模型。然后利用知識(shí)蒸餾策略,讓教師模型對(duì)更大規(guī)模的網(wǎng)絡(luò)圖像生成偽標(biāo)簽。最后,在網(wǎng)絡(luò)訓(xùn)練集上,同時(shí)使用網(wǎng)絡(luò)標(biāo)簽和生成的偽標(biāo)簽來訓(xùn)練一個(gè)學(xué)生模型。Li 等人在研究中表明聯(lián)合使用兩種標(biāo)簽訓(xùn)練會(huì)比單獨(dú)使用其中一個(gè)的風(fēng)險(xiǎn)更小。在發(fā)表于2018年 InternationalConference on Machine Learning會(huì)議上的“Learning to reweight examples forrobust deep learning”文章和發(fā)表于2019年Conference on Neural InformationProcessing Systems會(huì)議上的“Learning an explicit mapping for sample weighting”文章中,都采用了適合小樣本學(xué)習(xí)的元學(xué)習(xí)策略,使用一個(gè)小規(guī)模的數(shù)據(jù)集來訓(xùn)練一個(gè)重加權(quán)模型,降低標(biāo)簽噪聲的權(quán)重,其中,一種是在每個(gè)訓(xùn)練周期動(dòng)態(tài)地計(jì)算各個(gè)樣本的權(quán)重,而另一種則訓(xùn)練一個(gè)模型來表示“損失-權(quán)重”映射函數(shù),即對(duì)于一個(gè)樣本的訓(xùn)練損失產(chǎn)生一個(gè)相應(yīng)的權(quán)重。該算法不僅可以用于緩解標(biāo)簽噪聲問題,還可以用來解決長(zhǎng)尾分布和難樣本學(xué)習(xí)等問題;由于借助了可靠的先驗(yàn)知識(shí),上述算法都能較為高效地處理標(biāo)簽噪聲問題;
借助先驗(yàn)知識(shí)來估計(jì)噪聲轉(zhuǎn)移矩陣的策略得益于可靠數(shù)據(jù)的引導(dǎo),能夠緩解高比例噪聲的問題,在高噪聲環(huán)境中較為準(zhǔn)確地估計(jì)出噪聲轉(zhuǎn)移矩陣。然而該方法只能處理人工環(huán)境下的噪聲數(shù)據(jù)集,即數(shù)據(jù)集內(nèi)所有的標(biāo)簽噪聲都是分布內(nèi)的。這個(gè)缺點(diǎn)源自于標(biāo)簽修正策略的局限性,導(dǎo)致此算法實(shí)用性較差,無法處理包含了分布外噪聲樣本的現(xiàn)實(shí)環(huán)境中的噪聲數(shù)據(jù)集;
現(xiàn)有技術(shù)將知識(shí)蒸餾策略從模型壓縮領(lǐng)域擴(kuò)展到了標(biāo)簽噪聲學(xué)習(xí)任務(wù)上,先使用人工標(biāo)注的干凈數(shù)據(jù)集來訓(xùn)練一個(gè)教師模型,再用教師模型對(duì)網(wǎng)絡(luò)訓(xùn)練集中的樣本生成軟標(biāo)簽來訓(xùn)練學(xué)生模型;由于偽標(biāo)簽是由教師模型提供的,所以教師模型的性能對(duì)于整個(gè)算法來說至關(guān)重要,使用小規(guī)模數(shù)據(jù)集訓(xùn)練的教師模型容易遭受過擬合問題,導(dǎo)致其輸出的標(biāo)簽可靠性降低;所以該方法往往需要一個(gè)規(guī)模相對(duì)較大(相較于本發(fā)明算法使用的小元集而言)的干凈訓(xùn)練集來訓(xùn)練可靠的教師模型,其干凈樣本的數(shù)據(jù)量大約是網(wǎng)絡(luò)數(shù)據(jù)集的四分之一;對(duì)于大量可靠標(biāo)簽的需求限制了該方法的實(shí)用性。此外,該方法總共包含訓(xùn)練教師模型和學(xué)生模型兩個(gè)階段,比較耗時(shí);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京碼極客科技有限公司,未經(jīng)南京碼極客科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211420837.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 電流驅(qū)動(dòng)裝置的驅(qū)動(dòng)電路,電流驅(qū)動(dòng)設(shè)備及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊以及電機(jī)驅(qū)動(dòng)裝置
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊和電機(jī)驅(qū)動(dòng)設(shè)備
- 驅(qū)動(dòng)單元、驅(qū)動(dòng)方法、驅(qū)動(dòng)電路及顯示面板
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)芯片及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電機(jī)(電驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(節(jié)能驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(設(shè)備驅(qū)動(dòng))
- 驅(qū)動(dòng)機(jī)(驅(qū)動(dòng)軸)
- 驅(qū)動(dòng)機(jī)(電驅(qū)動(dòng))





