[發(fā)明專利]一種圖像表示學(xué)習(xí)方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011632703.8 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112634174A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 胡郡郡 | 申請(專利權(quán))人: | 上海明略人工智能(集團(tuán))有限公司 |
| 主分類號: | G06T5/00 | 分類號: | G06T5/00;G06T7/181;G06N3/04;G06N3/08 |
| 代理公司: | 青島清泰聯(lián)信知識產(chǎn)權(quán)代理有限公司 37256 | 代理人: | 李紅巖 |
| 地址: | 200030 上海市徐匯區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 圖像 表示 學(xué)習(xí)方法 系統(tǒng) | ||
本申請公開了一種圖像表示學(xué)習(xí)方法及系統(tǒng)。圖像表示學(xué)習(xí)方法包括:增強(qiáng)圖像獲取步驟:獲取原始圖像的增強(qiáng)圖像;特征映射獲取步驟:通過編碼器獲取所述增強(qiáng)圖像的特征映射;預(yù)測步驟:使用框回歸網(wǎng)絡(luò)預(yù)測所述增強(qiáng)圖像的邊框,并獲取預(yù)測邊框;計算步驟:計算真實邊框與所述預(yù)測邊框的最終損失,根據(jù)所述最終損失更新所述框回歸網(wǎng)絡(luò)及所述編碼器。本發(fā)明提出一種圖像表示學(xué)習(xí)方法及系統(tǒng),本發(fā)明通過使用框回歸的訓(xùn)練方法,提高了模型的表達(dá)能力,使模型獲取更多的位置信息。對原始圖片使用了兩種增強(qiáng)方式,增強(qiáng)了模型的魯棒性,能夠更好的抑制噪聲的同時,提高了對檢測、分割任務(wù)的準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請涉及圖像表示技術(shù)領(lǐng)域,尤其涉及一種圖像表示學(xué)習(xí)方法及系統(tǒng)。
背景技術(shù)
深度學(xué)習(xí)在優(yōu)化特定任務(wù)時,無論是分類,檢測,還是分割,一般會先加載在imagenet上分類的預(yù)訓(xùn)練模型,然后遷移到下游任務(wù)中去,但是這種訓(xùn)練模式模糊了位置信息。除了在imagenet上分類的預(yù)訓(xùn)練模型,目前無監(jiān)督的方法也被廣泛研究,通過對比學(xué)習(xí)的方法來提升預(yù)訓(xùn)練模型的表達(dá)能力。本文提出另外一種提升表達(dá)能力的方法,在imagenet數(shù)據(jù)集上使用框回歸的方法來學(xué)習(xí)表達(dá)能力,分類任務(wù)模糊了位置信息,框回歸可以學(xué)習(xí)到更多的位置信息,有利于下游的對于位置信息較為敏感的任務(wù)。
因此,針對以上現(xiàn)狀,本發(fā)明提出一種圖像表示學(xué)習(xí)方法及系統(tǒng),本發(fā)明通過使用框回歸而不是分類的訓(xùn)練方法,提高了模型的表達(dá)能力,特別是提高了模型對位置、細(xì)節(jié)的敏感度,使模型獲取更多的位置信息。對原始圖片使用了兩種增強(qiáng)方式,分別回歸框,損失函數(shù)為兩者疊加,增強(qiáng)了模型的魯棒性,能夠更好的抑制噪聲的同時,提高了對檢測、分割任務(wù)的準(zhǔn)確率。
發(fā)明內(nèi)容
本申請實施例提供了一種圖像表示學(xué)習(xí)方法及系統(tǒng),以至少解決相關(guān)技術(shù)中主觀因素影響的問題。
本發(fā)明提供了一種圖像表示學(xué)習(xí)方法,包括:
增強(qiáng)圖像獲取步驟:獲取原始圖像的增強(qiáng)圖像;
特征映射獲取步驟:通過編碼器獲取所述增強(qiáng)圖像的特征映射;
預(yù)測步驟:使用框回歸網(wǎng)絡(luò)預(yù)測所述增強(qiáng)圖像的邊框,并獲取預(yù)測邊框;
計算步驟:計算真實邊框與所述預(yù)測邊框的最終損失,根據(jù)所述最終損失更新所述框回歸網(wǎng)絡(luò)及所述編碼器。
上述的圖像表示學(xué)習(xí)方法,所述增強(qiáng)圖像獲取步驟包括,對于每個所述原始圖像,使用數(shù)據(jù)增強(qiáng)的方法,獲取所述原始圖像的至少兩個所述增強(qiáng)圖像。
上述的圖像表示學(xué)習(xí)方法,所述特征映射獲取步驟包括,使用深度學(xué)習(xí)特征,提取主干網(wǎng)絡(luò)和多層感知器共同組成的所述編碼器,并根據(jù)所述編碼器獲取所述特征映射。
上述的圖像表示學(xué)習(xí)方法,所述預(yù)測步驟包括,使用所述框回歸網(wǎng)絡(luò)預(yù)測每一個所述增強(qiáng)圖像的所述邊框,并獲取所述預(yù)測邊框。
上述的圖像表示學(xué)習(xí)方法,所述計算步驟包括,使用交并比損失分別計算所述原始圖像的所述真實邊框與每一個所述增強(qiáng)圖像的所述預(yù)測邊框的所述損失,將至少兩個所述損失相加后獲得最終損失,根據(jù)所述最終損失反向傳播更新所述編碼器與所述框回歸網(wǎng)絡(luò)。
本發(fā)明提供圖像表示學(xué)習(xí)系統(tǒng),其特征在于,適用于上述所述的圖像表示學(xué)習(xí)方法,所述圖像表示學(xué)習(xí)系統(tǒng)包括:
增強(qiáng)圖像獲取單元:獲取原始圖像的增強(qiáng)圖像;
特征映射獲取單元:通過編碼器獲取所述增強(qiáng)圖像的特征映射;
預(yù)測單元:使用框回歸網(wǎng)絡(luò)預(yù)測所述增強(qiáng)圖像的邊框,獲取預(yù)測邊框;
計算單元:計算真實邊框與所述預(yù)測邊框的最終損失,根據(jù)所述最終損失更新所述框回歸網(wǎng)絡(luò)及所述編碼器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海明略人工智能(集團(tuán))有限公司,未經(jīng)上海明略人工智能(集團(tuán))有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011632703.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:取栓裝置
- 下一篇:一種保水緩釋肥料及其制備方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 數(shù)字學(xué)習(xí)方法及執(zhí)行此數(shù)字學(xué)習(xí)方法的攜帶式電子裝置
- 一種響應(yīng)式教學(xué)設(shè)計方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)及該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
- 一種高光譜遙感影像目標(biāo)探測方法
- 一種八維學(xué)習(xí)方法
- 一種自適應(yīng)學(xué)習(xí)特征及其張量分解式分享學(xué)習(xí)方法
- 生成模型學(xué)習(xí)方法、生成模型學(xué)習(xí)裝置及程序
- 一種高精度定位系統(tǒng)及方法
- 學(xué)習(xí)方法、管理裝置和記錄介質(zhì)
- 一種基于圖像屬性特征表述的少樣本學(xué)習(xí)方法





