[發(fā)明專利]圖像語義分割模型的訓(xùn)練方法、可讀存儲介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 201810375579.8 | 申請日: | 2018-04-25 |
| 公開(公告)號: | CN108596184B | 公開(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計)人: | 袁春;黎健成 | 申請(專利權(quán))人: | 清華大學(xué)深圳研究生院 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62 |
| 代理公司: | 深圳市鼎言知識產(chǎn)權(quán)代理有限公司 44311 | 代理人: | 曾昭毅;鄭海威 |
| 地址: | 518055 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖像 語義 分割 模型 訓(xùn)練 方法 可讀 存儲 介質(zhì) 電子設(shè)備 | ||
一種圖像語義分割的訓(xùn)練方法包括:將預(yù)先標(biāo)注語義分割信息的訓(xùn)練圖像輸入到圖像語義分割模型中,得到包含特征圖及預(yù)測的語義分割結(jié)果;將特征圖輸入到困難樣本挖掘單元中,以計算出訓(xùn)練圖像的困難樣本;依據(jù)預(yù)測語義分割結(jié)果和預(yù)先標(biāo)注的語義分割信息,統(tǒng)計預(yù)測錯誤的像素,將預(yù)測語義分割結(jié)果中預(yù)測錯誤的像素作為參考困難樣本;依據(jù)預(yù)測語義分割結(jié)果和預(yù)先標(biāo)注的語義分割信息、困難樣本和參考困難樣本,對基礎(chǔ)圖像語義分割模型及困難樣本挖掘單元的參數(shù)進(jìn)行修正。本發(fā)明還提供了一種應(yīng)用該圖像語義分割的訓(xùn)練方法的可讀存儲介質(zhì)及電子設(shè)備。本發(fā)明圖像語義分割模型的訓(xùn)練方法、可讀存儲介質(zhì)及電子設(shè)備可提高語義分割結(jié)果的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)視覺與圖像處理領(lǐng)域,尤其是涉及一種基于像素級困難樣本挖掘的圖像語義分割模型的訓(xùn)練方法、可讀存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
圖像語義分割是計算機(jī)視覺領(lǐng)域中一項重要的研究內(nèi)容,其目標(biāo)是將圖像分割成具有不同語義信息的區(qū)域,并且標(biāo)注每個區(qū)域相應(yīng)的語義標(biāo)簽,例如通過對一幅圖像進(jìn)行圖像語義分割后可為圖像中的物體添加語義標(biāo)簽(譬如桌子、墻壁、天空、人、狗等),可應(yīng)用于例如無人駕駛等領(lǐng)域。
目前,用于圖像語義分割的較主流的解決方案主要基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN),該網(wǎng)絡(luò)學(xué)習(xí)圖像的語義特征表示。比如全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,簡稱為FCN)通過構(gòu)建包含卷積層、池化層和反卷積層的卷積神經(jīng)網(wǎng)絡(luò),以端到端的方式將任意大小的輸入圖像轉(zhuǎn)換為像素級的分類結(jié)果,為研究人員和工程師提供了一種簡單而有效的方法來解決圖像語義分割問題。DeepLab和DilatedNet把全卷積網(wǎng)絡(luò)中普通卷積替換為擴(kuò)散卷積使得語義分割預(yù)測時結(jié)合更多的上下文和場景信息。
然而,這些模型還存在各種各樣的問題,特別是對于復(fù)雜的對象和多樣的場景。例如全卷積網(wǎng)絡(luò)忽略了圖像的全局信息和潛在有用的場景語義上下文信息,因此容易將一些物體的某些部分錯誤地標(biāo)注為其他物體。最近一些學(xué)者嘗試融合更多的上下文信息和全局信息來解決這些容易預(yù)測錯誤的區(qū)域,例如DeepLab和DilatedNet擴(kuò)大了濾波器的感受野以融合更多的上下文,但遺漏了詳細(xì)的信息,會把同一個物體預(yù)測成多個標(biāo)簽;ParseNet則融合了全局平均池化的特征以使這部分區(qū)域與全局標(biāo)簽統(tǒng)一,但對于場景復(fù)雜包含大量標(biāo)簽的圖像則沒有太大變化;DenseCRF基于全卷積網(wǎng)絡(luò)的預(yù)測結(jié)果和圖像的顏色紋理信息來進(jìn)行后處理,合并顏色紋理相近但標(biāo)簽不同的區(qū)域,但容易把原本預(yù)測正確的區(qū)域合并為錯誤的區(qū)域。
以上背景技術(shù)內(nèi)容的公開僅用于輔助理解本發(fā)明的發(fā)明構(gòu)思及技術(shù)方案,其并不必然屬于本專利申請的現(xiàn)有技術(shù),在沒有明確的證據(jù)表明上述內(nèi)容在本專利申請的申請日前已經(jīng)公開的情況下,上述背景技術(shù)不應(yīng)當(dāng)用于評價本申請的新穎性和創(chuàng)造性。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種可提高語義分割結(jié)果的準(zhǔn)確率的圖像語義分割模型的訓(xùn)練方法、可讀存儲介質(zhì)及電子設(shè)備。
一種圖像語義分割的訓(xùn)練方法,包括:
將預(yù)先標(biāo)注語義分割信息的訓(xùn)練圖像輸入到圖像語義分割模型中,得到包含語義信息的特征圖及預(yù)測的語義分割結(jié)果;
將對應(yīng)所述訓(xùn)練圖像的所述特征圖輸入到困難樣本挖掘單元中,以通過所述困難樣本挖掘單元計算出所述訓(xùn)練圖像的困難樣本;
依據(jù)所述訓(xùn)練圖像的所述預(yù)測語義分割結(jié)果和預(yù)先標(biāo)注的語義分割信息,統(tǒng)計預(yù)測錯誤的像素,將所述預(yù)測語義分割結(jié)果中預(yù)測錯誤的像素作為參考困難樣本;及
依據(jù)所述訓(xùn)練圖像的所述預(yù)測語義分割結(jié)果和預(yù)先標(biāo)注的語義分割信息、所述計算得到的困難樣本和參考困難樣本,對所述基礎(chǔ)圖像語義分割模型及所述困難樣本挖掘單元的參數(shù)進(jìn)行修正。
進(jìn)一步地,所述圖像語義分割的訓(xùn)練方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳研究生院,未經(jīng)清華大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810375579.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





