[發(fā)明專利]視覺處理及模型訓(xùn)練方法、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品有效
| 申請(qǐng)?zhí)枺?/td> | 202210181868.0 | 申請(qǐng)日: | 2022-02-25 |
| 公開(公告)號(hào): | CN114549904B | 公開(公告)日: | 2023-07-07 |
| 發(fā)明(設(shè)計(jì))人: | 郭若愚;杜宇寧;李晨霞;劉其文;賴寶華;馬艷軍;于佃海 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06V10/764 | 分類號(hào): | G06V10/764;G06V30/19;G06V10/82;G06N3/09 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 柴海平;黃健 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視覺 處理 模型 訓(xùn)練 方法 設(shè)備 存儲(chǔ) 介質(zhì) 程序 產(chǎn)品 | ||
1.一種視覺模型訓(xùn)練的方法,包括:
基于視覺模型建立圖像分類網(wǎng)絡(luò),所述圖像分類網(wǎng)絡(luò)與所述視覺模型具有相同的骨干網(wǎng)絡(luò),所述圖像分類網(wǎng)絡(luò)包括骨干網(wǎng)絡(luò)和解碼模塊,所述圖像分類網(wǎng)絡(luò)與所述視覺模型用于進(jìn)行特征提取的骨干網(wǎng)絡(luò)相同,所述解碼模塊不同;
使用無(wú)標(biāo)注的第一數(shù)據(jù)集,對(duì)所述圖像分類網(wǎng)絡(luò)進(jìn)行自監(jiān)督訓(xùn)練,得到訓(xùn)練好的圖像分類網(wǎng)絡(luò);
根據(jù)訓(xùn)練好的圖像分類網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)的權(quán)重,初始化所述視覺模型的骨干網(wǎng)絡(luò)的權(quán)重,得到預(yù)訓(xùn)練模型;
使用有標(biāo)注的第二數(shù)據(jù)集,對(duì)所述預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的視覺模型,所述視覺模型用于執(zhí)行計(jì)算機(jī)視覺處理得到處理結(jié)果,所述視覺模型為光學(xué)字符識(shí)別OCR文本識(shí)別模型,用于對(duì)輸入圖像進(jìn)行文本識(shí)別處理,得到所述輸入圖像所包含的文本信息,所述第二數(shù)據(jù)集為包含當(dāng)前計(jì)算機(jī)視覺任務(wù)場(chǎng)景下的真實(shí)圖像數(shù)據(jù)及標(biāo)注信息;
所述使用無(wú)標(biāo)注的第一數(shù)據(jù)集,對(duì)所述圖像分類網(wǎng)絡(luò)進(jìn)行自監(jiān)督訓(xùn)練,得到訓(xùn)練好的圖像分類網(wǎng)絡(luò),包括:
獲取所述無(wú)標(biāo)注的第一數(shù)據(jù)集,所述第一數(shù)據(jù)集包括多組樣本圖像,以及每一樣本圖像的方向信息,其中每一組樣本圖像包括第一樣本圖像、所述第一樣本圖像旋轉(zhuǎn)預(yù)設(shè)角度得到的第二樣本圖像;
通過(guò)所述圖像分類網(wǎng)絡(luò)提取所述第一數(shù)據(jù)集中每一樣本圖像的圖像特征,并根據(jù)所述圖像特征確定每一樣本圖像的方向預(yù)測(cè)結(jié)果;
根據(jù)同一組樣本圖像中方向信息相差180度的兩個(gè)樣本圖像的圖像特征,計(jì)算第一損失;并根據(jù)每一樣本圖像的真實(shí)方向信息和方向預(yù)測(cè)結(jié)果計(jì)算第二損失;
根據(jù)所述第一損失和所述第二損失,調(diào)整所述圖像分類網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)的權(quán)重。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述獲取所述無(wú)標(biāo)注的第一數(shù)據(jù)集,包括:
獲取無(wú)標(biāo)注的第一樣本圖像,將所述第一樣本圖像的方向信息確定為0度;
將所述第一樣本圖像旋轉(zhuǎn)所述預(yù)設(shè)角度,得到第二樣本圖像,將所述第二樣本圖像的方向信息確定為所述預(yù)設(shè)角度。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)設(shè)角度至少包括180度,
所述根據(jù)同一組樣本圖像中方向信息相差180度的兩個(gè)樣本圖像的圖像特征,計(jì)算第一損失,包括:
根據(jù)每一組樣本圖像中第一樣本圖像的圖像特征旋轉(zhuǎn)180度后得到特征,與第一樣本圖像旋轉(zhuǎn)180度后得到的第二樣本圖像的圖像特征之間的差異,計(jì)算第一損失。
4.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)設(shè)角度至少包括第一角度和第二角度,所述第二角度等于所述第一角度加180度,所述第一角度不是0度;
所述根據(jù)同一組樣本圖像中方向信息相差180度的兩個(gè)樣本圖像的圖像特征,計(jì)算第一損失,包括:
根據(jù)同一組樣本圖像中方向信息為所述第一角度的樣本圖像的圖像特征旋轉(zhuǎn)180度后得到的特征,與方向信息為所述第二角度的樣本圖像的圖像特征之間的差異,計(jì)算第一損失。
5.根據(jù)權(quán)利要求2-4中任一項(xiàng)所述的方法,其中,所述獲取無(wú)標(biāo)注的第一樣本圖像,包括:
獲取原始圖像,所述原始圖像包括以下至少一種:合成圖像、真實(shí)圖像;
對(duì)所述原始圖像進(jìn)行預(yù)處理,得到滿足模型訓(xùn)練要求的樣本圖像;
對(duì)所述樣本圖像進(jìn)行隨機(jī)數(shù)據(jù)增廣,得到所述第一樣本圖像。
6.根據(jù)權(quán)利要求5所述的方法,其中,若所述視覺模型應(yīng)用于文本識(shí)別場(chǎng)景,所述對(duì)所述原始圖像進(jìn)行預(yù)處理,得到滿足模型訓(xùn)練要求的樣本圖像,包括:
對(duì)的所述原始圖像進(jìn)行文本檢測(cè),提取文本信息所在區(qū)域的圖像;
對(duì)所述文本信息所在區(qū)域的圖像進(jìn)行圖像校正,得到滿足模型訓(xùn)練要求的樣本圖像。
7.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其中,所述根據(jù)所述第一損失和所述第二損失,調(diào)整所述圖像分類網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)的權(quán)重,包括:
計(jì)算所述第一損失和所述第二損失之和,作為最終損失;
根據(jù)所述最終損失,調(diào)整所述圖像分類網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)的權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210181868.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





