[發(fā)明專利]文本檢測方法及裝置、電子設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110112063.6 | 申請日: | 2021-01-27 |
| 公開(公告)號: | CN112800954A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計)人: | 朱一秦;陳健勇;梁凌宇;曠章輝;金連文;張偉 | 申請(專利權(quán))人: | 北京市商湯科技開發(fā)有限公司;華南理工大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/34;G06K9/48;G06N3/04;G06N3/08 |
| 代理公司: | 北京林達(dá)劉知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 100080 北京市海淀區(qū)北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 檢測 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開涉及一種文本檢測方法及裝置、電子設(shè)備和存儲介質(zhì),所述方法包括:對待檢測圖像進(jìn)行特征提取,得到所述待檢測圖像對應(yīng)的至少一個第一特征;根據(jù)所述至少一個第一特征,預(yù)測所述待檢測圖像中的第一目標(biāo)文本區(qū)域,以及預(yù)測所述第一目標(biāo)文本區(qū)域?qū)?yīng)的第一傅里葉特征;根據(jù)所述第一傅里葉特征,通過執(zhí)行傅里葉逆變換操作,得到所述第一目標(biāo)文本區(qū)域?qū)?yīng)的第一目標(biāo)邊界框。本公開實施例可快速準(zhǔn)確地對待檢測圖像中任意形狀的文本區(qū)域進(jìn)行檢測。
技術(shù)領(lǐng)域
本公開涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本檢測方法及裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù)
隨著通用目標(biāo)檢測技術(shù)的發(fā)展,文本作為一種特殊的目標(biāo),文本檢測在取得突飛猛進(jìn)的進(jìn)展的同時也迎來了全新的挑戰(zhàn)。通常來說,通用目標(biāo)由于其形狀規(guī)則,因此可以統(tǒng)一使用矩形框來表示。自然場景中也存在許多規(guī)則的文本,它也可以使用矩形框來表示。但是,在不同應(yīng)用場景下,文本在長度、彎曲程度、縱橫比等方面具有多樣性,使得文本的形狀多種多樣,僅使用規(guī)則的矩形框是無法對其進(jìn)行準(zhǔn)確描述的。因此,亟需一種文本檢測方法來實現(xiàn)對任意形狀的文本進(jìn)行文本檢測。
發(fā)明內(nèi)容
本公開提出了一種文本檢測方法及裝置、電子設(shè)備和存儲介質(zhì)的技術(shù)方案。
根據(jù)本公開的一方面,提供了一種文本檢測方法,包括:對待檢測圖像進(jìn)行特征提取,得到所述待檢測圖像對應(yīng)的至少一個第一特征;根據(jù)所述至少一個第一特征,預(yù)測所述待檢測圖像中的第一目標(biāo)文本區(qū)域,以及預(yù)測所述第一目標(biāo)文本區(qū)域?qū)?yīng)的第一傅里葉特征;根據(jù)所述第一傅里葉特征,通過執(zhí)行傅里葉逆變換操作,得到所述第一目標(biāo)文本區(qū)域?qū)?yīng)的第一目標(biāo)邊界框。
在一種可能的實現(xiàn)方式中,所述第一特征包括第一特征圖;所述根據(jù)所述至少一個第一特征,預(yù)測所述待檢測圖像中的第一目標(biāo)文本區(qū)域,包括:根據(jù)至少一個第一特征圖,對所述待檢測圖像中的像素點進(jìn)行第一分類,得到所述待檢測圖像中的第一初始文本區(qū)域;根據(jù)所述至少一個第一特征圖,對所述待檢測圖像中的像素點進(jìn)行第二分類,得到所述待檢測圖像中的第一文本中心區(qū)域,所述第一文本中心區(qū)域位于所述第一初始文本區(qū)域的中心;根據(jù)所述第一初始文本區(qū)域和所述第一文本中心區(qū)域,確定所述第一目標(biāo)文本區(qū)域。
在一種可能的實現(xiàn)方式中,所述第一特征包括第一特征圖,所述第一傅里葉特征包括第一傅里葉特征向量;所述根據(jù)所述至少一個第一特征,預(yù)測所述第一目標(biāo)文本區(qū)域?qū)?yīng)的第一傅里葉特征,包括:根據(jù)至少一個第一特征圖,預(yù)測所述待檢測圖像中各像素點對應(yīng)的傅里葉特征向量;根據(jù)所述各像素點對應(yīng)的傅里葉特征向量和所述第一目標(biāo)文本區(qū)域的位置,確定所述第一傅里葉特征向量。
在一種可能的實現(xiàn)方式中,所述根據(jù)所述第一傅里葉特征,通過執(zhí)行傅里葉逆變換操作,得到所述第一目標(biāo)文本區(qū)域?qū)?yīng)的第一目標(biāo)邊界框,包括:通過對所述第一傅里葉特征向量執(zhí)行傅里葉逆變換操作,得到所述第一目標(biāo)文本區(qū)域?qū)?yīng)的多個邊界框;通過對所述多個邊界框執(zhí)行非極大值抑制操作,得到所述第一目標(biāo)邊界框。
在一種可能的實現(xiàn)方式中,所述文本檢測方法通過文本檢測神經(jīng)網(wǎng)絡(luò)實現(xiàn)。
在一種可能的實現(xiàn)方式中,所述文本檢測神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本包括:樣本圖像、所述樣本圖像中的標(biāo)注文本區(qū)域、所述標(biāo)注文本區(qū)域?qū)?yīng)的標(biāo)注傅里葉特征;所述方法還包括:通過初始神經(jīng)網(wǎng)絡(luò)對所述樣本圖像進(jìn)行特征提取,得到所述樣本圖像對應(yīng)的至少一個第二特征;根據(jù)所述至少一個第二特征,預(yù)測所述樣本圖像中的第二目標(biāo)文本區(qū)域,以及預(yù)測所述第二目標(biāo)文本區(qū)域?qū)?yīng)的第二傅里葉特征;根據(jù)所述第二傅里葉特征,通過執(zhí)行傅里葉逆變換操作,得到所述第二目標(biāo)文本區(qū)域?qū)?yīng)的第二目標(biāo)邊界框;根據(jù)所述第二目標(biāo)文本區(qū)域和所述標(biāo)注文本區(qū)域確定第一檢測損失,以及根據(jù)所述第二目標(biāo)邊界框和所述標(biāo)注傅里葉特征,確定第二檢測損失;根據(jù)所述第一檢測損失和所述第二檢測損失,調(diào)整所述初始神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),得到訓(xùn)練后的所述文本檢測神經(jīng)網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京市商湯科技開發(fā)有限公司;華南理工大學(xué),未經(jīng)北京市商湯科技開發(fā)有限公司;華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110112063.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:環(huán)型骨鉆
- 下一篇:一種排行榜系統(tǒng)及生成排行榜的方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





