[發(fā)明專利]一種文本圖像的識(shí)別方法、裝置及計(jì)算設(shè)備有效

申請(qǐng)?zhí)枺?/td>	202110515979.6	申請(qǐng)日：	2021-05-12
公開(kāi)（公告）號(hào)：	CN112949649B	公開(kāi)（公告）日：	2021-09-03
發(fā)明（設(shè)計(jì)）人：	秦勇	申請(qǐng)（專利權(quán)）人：	北京世紀(jì)好未來(lái)教育科技有限公司
主分類號(hào)：	G06K9/34	分類號(hào)：	G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京鼎承知識(shí)產(chǎn)權(quán)代理有限公司 11551	代理人：	顧可嘉;夏華棟
地址：	100872 北京市海淀區(qū)中***	國(guó)省代碼：	北京;11
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種文本圖像識(shí)別方法裝置計(jì)算設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門(mén)專利

【權(quán)利要求書(shū)】：

1.一種文本圖像的識(shí)別方法，其特征在于，包括：

將文本圖像輸入已訓(xùn)練的第一編碼器，提取所述文本圖像的劃痕的第三特征；其中，預(yù)先訓(xùn)練所述第一編碼器，包括：構(gòu)建包括第一編碼器、第二編碼器和解碼器的第二網(wǎng)絡(luò)模型；以純劃痕圖像作為所述第一編碼器的輸入，以純文本圖像作為所述第二編碼器的輸入，以帶劃痕的圖像作為輸出訓(xùn)練所述第二網(wǎng)絡(luò)模型；從訓(xùn)練后的所述第二網(wǎng)絡(luò)模型中提取所述第一編碼器；

將所述文本圖像和所述第三特征輸入已訓(xùn)練的第一網(wǎng)絡(luò)模型，得到所述文本圖像中的文本框的內(nèi)容；

其中，所述第一網(wǎng)絡(luò)模型用于獲取所述文本圖像的第一特征，根據(jù)所述文本圖像的第一特征，識(shí)別所述文本圖像中的文本框，根據(jù)所述文本框的坐標(biāo)信息，從所述文本圖像的第一特征中等比例地截取與所述文本框?qū)?yīng)的第二特征，將所述第二特征減去所述第三特征，得到與所述文本框?qū)?yīng)的第四特征，根據(jù)所述第四特征識(shí)別所述文本框的內(nèi)容。

2.如權(quán)利要求1所述的方法，其特征在于，訓(xùn)練所述第一網(wǎng)絡(luò)模型，包括：

根據(jù)純文本圖像和/或帶劃痕的圖像對(duì)所述第一網(wǎng)絡(luò)模型進(jìn)行第一次訓(xùn)練；所述第一網(wǎng)絡(luò)模型在第一次訓(xùn)練時(shí)，用于獲取純文本圖像和/或帶劃痕的圖像的第一特征，根據(jù)純文本圖像和/或帶劃痕的圖像的第一特征，識(shí)別純文本圖像和/或帶劃痕的圖像中的文本框，根據(jù)文本框的坐標(biāo)信息，從純文本圖像和/或帶劃痕的圖像的第一特征中等比例地截取與文本框?qū)?yīng)的第二特征，根據(jù)第二特征識(shí)別文本框的內(nèi)容；

根據(jù)帶劃痕的圖像對(duì)所述第一網(wǎng)絡(luò)模型進(jìn)行第二次訓(xùn)練；所述第一網(wǎng)絡(luò)模型在第二次訓(xùn)練時(shí)，用于獲取帶劃痕的圖像的第一特征，根據(jù)帶劃痕的圖像的第一特征，識(shí)別帶劃痕的圖像中的文本框，根據(jù)文本框的坐標(biāo)信息，從帶劃痕的圖像的第一特征中等比例地截取與文本框?qū)?yīng)的第二特征，將第二特征減去所述第一編碼器處理同一帶劃痕的圖像后輸出的第三特征，得到與文本框?qū)?yīng)的第四特征，根據(jù)第四特征識(shí)別文本框的內(nèi)容。

3.如權(quán)利要求1所述的方法，其特征在于，根據(jù)所述第四特征識(shí)別所述文本框的內(nèi)容，包括：

根據(jù)CRNN網(wǎng)絡(luò)，將所述第四特征作卷積、池化、構(gòu)建時(shí)序、解碼處理，得到所述文本框的內(nèi)容。

4.如權(quán)利要求1所述的方法，其特征在于，獲取所述文本圖像的第一特征，包括：

通過(guò)特征提取網(wǎng)絡(luò)，獲取所述文本圖像的第一特征；

其中，所述特征提取網(wǎng)絡(luò)包括：VGG16、或VGG19、或VGG13、或resnet18、或resnet34、或resnet52。

5.如權(quán)利要求1所述的方法，其特征在于，根據(jù)所述文本圖像的第一特征，識(shí)別所述文本圖像中的文本框，包括：

根據(jù)CenterNet網(wǎng)絡(luò)，將所述文本圖像的第一特征作卷積、兩次反卷積處理，得到一組用于描述所述文本圖像中的文本框的多通道輸出。

6.如權(quán)利要求5所述的方法，其特征在于，所述多通道輸出包括6個(gè)通道輸出，其中，第1個(gè)通道表示文本框中心點(diǎn)得分圖；第2個(gè)通道和第3個(gè)通道分別表示文本框中心點(diǎn)的x、y方向偏移量；第4個(gè)通道和第5個(gè)通道分別表示預(yù)測(cè)的文本框的寬、高；第6個(gè)通道表示文本框的旋轉(zhuǎn)角度。

7.如權(quán)利要求1所述的方法，其特征在于，構(gòu)建包括第一編碼器、第二編碼器和解碼器的第二網(wǎng)絡(luò)模型之前，還包括：

根據(jù)純劃痕圖像訓(xùn)練所述第一編碼器；

根據(jù)純文本圖像訓(xùn)練所述第二編碼器。

8.如權(quán)利要求1所述的方法，其特征在于，以純劃痕圖像作為所述第一編碼器的輸入，以純文本圖像作為所述第二編碼器的輸入，以帶劃痕的圖像作為輸出訓(xùn)練所述第二網(wǎng)絡(luò)模型，包括：

固定所述第一編碼器和所述第二編碼器的參數(shù)，以純劃痕圖像作為所述第一編碼器的輸入，以純文本圖像作為所述第二編碼器的輸入，以帶劃痕的圖像作為輸出第一次訓(xùn)練所述第二網(wǎng)絡(luò)模型；

不固定所述第一編碼器和所述第二編碼器的參數(shù)，以純劃痕圖像作為所述第一編碼器的輸入，以純文本圖像作為所述第二編碼器的輸入，以帶劃痕的圖像作為輸出第二次訓(xùn)練所述第二網(wǎng)絡(luò)模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京世紀(jì)好未來(lái)教育科技有限公司，未經(jīng)北京世紀(jì)好未來(lái)教育科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110515979.6/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種可信計(jì)算程序調(diào)用方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
下一篇：一種紡織倒毛機(jī)

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06K 數(shù)據(jù)識(shí)別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形，例如，指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個(gè)筆畫(huà)組成的，而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】