[發(fā)明專利]文字檢測和模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202210404529.4	申請日：	2022-04-18
公開（公告）號：	CN114724133A	公開（公告）日：	2022-07-08
發(fā)明（設(shè)計）人：	黃聚;張曉強(qiáng);欽夏孟;章成全;姚錕	申請（專利權(quán)）人：	北京百度網(wǎng)訊科技有限公司
主分類號：	G06V20/62	分類號：	G06V20/62;G06V30/146;G06V30/148;G06V30/19;G06V30/414;G06V10/82;G06N3/04;G06N3/08;G06K9/62
代理公司：	北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205	代理人：	楊麗爽;臧建明
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文字檢測模型訓(xùn)練方法裝置設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種文字檢測和模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)，涉及人工智能技術(shù)領(lǐng)域，具體為深度學(xué)習(xí)、圖像處理、計算機(jī)視覺技術(shù)領(lǐng)域，可應(yīng)用于光學(xué)字符識別等場景。具體實(shí)現(xiàn)方案為：獲取訓(xùn)練樣本，訓(xùn)練樣本中包括樣本圖像和標(biāo)簽圖像，標(biāo)簽圖像為對所述樣本圖像上的文本實(shí)例進(jìn)行標(biāo)注得到的圖像；將樣本圖像輸入至文字檢測模型，得到文字檢測模型輸出的分割圖像和分割圖像的圖像類別，其中，圖像類別指示分割圖像中包括文本實(shí)例，或者，不包括文本實(shí)例；根據(jù)分割圖像、分割圖像的圖像類別和標(biāo)注圖像對文字檢測模型的參數(shù)進(jìn)行調(diào)整。對圖像中的文字以文本實(shí)例為單元進(jìn)行檢測得到檢測結(jié)果，文字檢測的準(zhǔn)確性較高。

技術(shù)領(lǐng)域

本公開涉及人工智能技術(shù)領(lǐng)域，具體為深度學(xué)習(xí)、圖像處理、計算機(jī)視覺技術(shù)領(lǐng)域，可應(yīng)用于光學(xué)字符識別(Optical Character Recognition，OCR)等場景，尤其涉及一種文字檢測和模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)

文字檢測是指在包含有文字的圖片中檢測文本區(qū)域的過程，具體來說，文字檢測的任務(wù)是輸出圖像中的每個目標(biāo)文本的邊界框，而并不關(guān)心目標(biāo)文本的具體語義內(nèi)容。

文字檢測是文字識別、產(chǎn)品搜索等應(yīng)用中的重要一環(huán)，文字檢測的準(zhǔn)確程度會影響后續(xù)文字識別的效果。因此，需要提供一種準(zhǔn)確性較高的文字檢測方案，提升文字檢測能力，有效增強(qiáng)身份證識別、文檔識別、票據(jù)識別等業(yè)務(wù)的準(zhǔn)確率和魯棒性。

發(fā)明內(nèi)容

本公開提供了一種文字檢測和模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)。

根據(jù)本公開的第一方面，提供了一種文字檢測方法，包括：

獲取待檢測的第一圖像；

將所述第一圖像輸入至文字檢測模型，得到所述文字檢測模型輸出的分割圖像和所述分割圖像的圖像類別，其中，所述圖像類別指示所述分割圖像中包括文本實(shí)例，或者，不包括文本實(shí)例；

根據(jù)所述分割圖像和所述圖像類別，在所述第一圖像上確定目標(biāo)區(qū)域，所述目標(biāo)區(qū)域中包括文本實(shí)例。

根據(jù)本公開的第二方面，提供了一種模型訓(xùn)練方法，包括：

獲取訓(xùn)練樣本，所述訓(xùn)練樣本中包括樣本圖像和標(biāo)簽圖像，所述標(biāo)簽圖像為對所述樣本圖像上的文本實(shí)例進(jìn)行標(biāo)注得到的圖像；

將所述樣本圖像輸入至所述文字檢測模型，得到所述文字檢測模型輸出的分割圖像和所述分割圖像的圖像類別，其中，所述圖像類別指示所述分割圖像中包括文本實(shí)例，或者，不包括文本實(shí)例；

根據(jù)所述分割圖像、所述分割圖像的圖像類別和所述標(biāo)注圖像對所述文字檢測模型的參數(shù)進(jìn)行調(diào)整。

根據(jù)本公開的第三方面，提供了一種文字檢測裝置，包括：

獲取單元，用于獲取待檢測的第一圖像；

處理單元，用于將所述第一圖像輸入至文字檢測模型，得到所述文字檢測模型輸出的分割圖像和所述分割圖像的圖像類別，其中，所述圖像類別指示所述分割圖像中包括文本實(shí)例，或者，不包括文本實(shí)例；

檢測單元，用于根據(jù)所述分割圖像和所述圖像類別，在所述第一圖像上確定目標(biāo)區(qū)域，所述目標(biāo)區(qū)域中包括文本實(shí)例。

根據(jù)本公開的第四方面，提供了一種模型訓(xùn)練裝置，包括：

獲取單元，用于獲取訓(xùn)練樣本，所述訓(xùn)練樣本中包括樣本圖像和標(biāo)簽圖像，所述標(biāo)簽圖像為對所述樣本圖像上的文本實(shí)例進(jìn)行標(biāo)注得到的圖像；

處理單元，用于將所述樣本圖像輸入至所述文字檢測模型，得到所述文字檢測模型輸出的分割圖像和所述分割圖像的圖像類別，其中，所述圖像類別指示所述分割圖像中包括文本實(shí)例，或者，不包括文本實(shí)例；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210404529.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種猜圖方法及系統(tǒng)
下一篇：表格識別方法及裝置、存儲介質(zhì)及電子設(shè)備

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

滑坡模型實(shí)驗?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】