[發(fā)明專利]模型訓(xùn)練和文本識別方法、裝置以及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210138219.2 | 申請日: | 2022-02-15 |
| 公開(公告)號: | CN114495087A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 達(dá)鋮;王鵬;姚聰 | 申請(專利權(quán))人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/146;G06V10/422;G06V30/19;G06V10/80;G06K9/62 |
| 代理公司: | 北京合智同創(chuàng)知識產(chǎn)權(quán)代理有限公司 11545 | 代理人: | 李杰;楊雷 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 文本 識別 方法 裝置 以及 存儲 介質(zhì) | ||
本發(fā)明實(shí)施例提供了一種模型訓(xùn)練和文本識別方法、裝置以及存儲介質(zhì)。所述模型訓(xùn)練方法包括:獲取目標(biāo)圖像的圖像特征和文本特征;融合所述圖像特征和文本特征,得到所述目標(biāo)圖像的圖文特征;基于所述圖文特征和所述文本特征的校正文本標(biāo)簽,對文本校正模型進(jìn)行訓(xùn)練,所述文本校正模型用于對所述文本特征進(jìn)行校正。在本發(fā)明實(shí)施例的方案中,圖文特征中融合了圖像特征和文本特征,使得融合特征中包括了更多的圖像特征所表征的上下文語義因素,因此,基于融合特征,對文本特征校正,提高了文本校正模型的校正能力,進(jìn)而提高了文本識別效果。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種模型訓(xùn)練和文本識別方法、裝置以及存儲介質(zhì)。
背景技術(shù)
自然場景中的文字識別(Scene text recognition,STR)是計(jì)算機(jī)視覺領(lǐng)域中存在已久且富有挑戰(zhàn)性的研究方向之一。隨著深度學(xué)習(xí)的興起,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的STR方法也獲得了長足的發(fā)展,并得到了廣泛應(yīng)用,產(chǎn)生了巨大的研究價(jià)值和應(yīng)用價(jià)值。
采用目前的STR算法進(jìn)行文本識別,場景中的文字常呈現(xiàn)出模糊、字體多變、光照不均勻、局部遮擋、透視變化、圖像分別率低和圖像質(zhì)量差等特點(diǎn)。
因此,現(xiàn)有的文本識別模型的文本識別效果較差。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種模型訓(xùn)練和文本識別方法、裝置以及存儲介質(zhì),以至少部分解決上述問題。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供了一種模型訓(xùn)練方法,包括:獲取目標(biāo)圖像的圖像特征和文本特征;融合所述圖像特征和文本特征,得到所述目標(biāo)圖像的圖文特征;基于所述圖文特征和所述文本特征的校正文本標(biāo)簽,對文本校正模型進(jìn)行訓(xùn)練,所述文本校正模型用于對所述文本特征進(jìn)行校正。
在本發(fā)明的另一實(shí)現(xiàn)方式中,所述獲取目標(biāo)圖像的圖像特征和文本特征,包括:對目標(biāo)圖像進(jìn)行特征提取,得到圖像特征;對所述圖像特征進(jìn)行文本識別,得到文本特征。
在本發(fā)明的另一實(shí)現(xiàn)方式中,所述融合所述圖像特征和文本特征,得到所述目標(biāo)圖像的圖文特征,包括:將所述圖像特征的維度表示和所述文本特征的維度表示進(jìn)行拼接,得到所述目標(biāo)圖像的圖文特征。
在本發(fā)明的另一實(shí)現(xiàn)方式中,所述文本校正模型包括上下文融合層和校正層,所述上下文融合層的輸出連接到所述校正層的輸入。所述基于所述圖文特征和所述文本特征的校正文本標(biāo)簽,對文本校正模型進(jìn)行訓(xùn)練,包括:基于所述圖文特征作為所述上下文融合層的輸入,并且基于所述校正文本標(biāo)簽作為所述校正層的輸出,訓(xùn)練所述文本校正模型。所述上下文融合層用于對所述文本特征和所述圖像特征進(jìn)行上下文融合,所述校正層用于對上下文融合后的圖文特征進(jìn)行校正。
在本發(fā)明的另一實(shí)現(xiàn)方式中,所述校正層包括刪除操作模塊和插入操作模塊,所述刪除操作模塊的輸出連接到所述插入操作模塊的輸入,所述刪除操作模塊的輸入作為所述校正層的輸入,所述插入操作模塊的輸出作為所述校正層的輸出。所述刪除操作模塊用于對上下文融合后的圖文特征進(jìn)行字符刪除,所述插入操作模塊用于對刪除字符的圖文特征進(jìn)行字符插入。
在本發(fā)明的另一實(shí)現(xiàn)方式中,所述插入操作模塊包括占位符添加模塊和字符預(yù)測模塊,所述刪除操作模塊的輸入作為所述插入操作模塊的輸入,所述刪除操作模塊的輸出連接到所述占位符添加模塊的輸入,所述占位符添加模塊的輸出作為所述插入操作模塊的輸出。所述占位符添加模塊用于對刪除字符的圖文特征進(jìn)行占位符添加,所述字符預(yù)測模塊用于對添加占位符的圖文特征中的占位符進(jìn)行字符預(yù)測。
根據(jù)本發(fā)明實(shí)施例的第二方面,提供了一種文本識別方法,包括:對待識別圖像進(jìn)行特征提取,得到所述待識別圖像的圖像特征;融合所述圖像特征和所述待識別圖像的文本特征,得到所述待識別圖像的圖文特征;基于所述圖文特征輸入到文本校正模型,得到所述文本特征的校正文本,所述文本校正模型利用根據(jù)第一方面所述的方法訓(xùn)練得到。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴(中國)有限公司,未經(jīng)阿里巴巴(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210138219.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:含硅研磨廢水的處理方法及裝置
- 下一篇:一種港口化肥集中割包平臺及方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





