[發明專利]一種基于多分類的文本檢測方法及系統在審
| 申請號: | 202211321333.5 | 申請日: | 2022-10-26 |
| 公開(公告)號: | CN115620327A | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 吳婷婷;陳德意;黃裕錕;高志鵬;趙建強;金輝;韓名羲 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/19;G06V10/82 |
| 代理公司: | 廈門福貝知識產權代理事務所(普通合伙) 35235 | 代理人: | 郭涵煒 |
| 地址: | 361000 福建省廈門市思明*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分類 文本 檢測 方法 系統 | ||
本申請提出了一種基于多分類的文本檢測方法以系統,包括:獲取并整理文本框樣本,將文本框樣本切分成文本單元,對文本單元的坐標和標志位進行標注;將文本框樣本按比例生成訓練集和驗證集,并且對文本單元的標志位賦類標;構建文本單元檢測網絡模型,通過文本單元檢測網絡模型對訓練集進行訓練至損失收斂,獲取完成訓練的模型輸出,輸出為集合B;構建文本單元合并算法,根據標志位的類標劃分集合B,形成多個子集,根據當前元素和當前元素所屬子集內的元素計算獲取點集cnt外接矩形;將驗證集輸入完成訓練的模型中,最終獲得所有的文本框。能夠有效解決自然場景下文本定位不準確、漏檢、誤檢等多種問題,同時能夠處理多角度的文本檢測問題。
技術領域
本申請涉及文本檢測技術領域,具體涉及一種基于多分類的文本檢測方法及系統。
背景技術
光學字符識別(Optical Character Recognition,OCR)技術,指對視頻圖像中的文字進行檢測識別,是一項對視頻圖像的文本信息進行挖掘的技術。其中文字檢測技術(Text Detection)作為其子任務,可以從圖像中定位到需要進行識別的具體區域。而隨著技術與需求的日益更新,早年針對印刷文檔使用的傳統識別技術已經不再適用于自然場景,基于深度學習的文本檢測方法已經成為當下主流的技術,其大致可以分為基于像素分割的文本檢測和基于候選框的文本檢測。
基于像素分割的文本檢測利用通用語義分割技術,通過對文本像素進行回歸或聚合,獲取文本定位,例如DBnet等?;诤蜻x框的文本檢測在通用目標檢測的基礎上,針對回歸目標多形變問題進行分解,最后針對性的進行合并或去重,獲取文本框,例如FCENet等。由于兩種技術各有利弊,因此也出現了針對兩種技術進行融合的嘗試方案,例如Pixel-Anchor等。
基于像素分割的文本檢測對于文本尺度較為敏感,對于密集文本或者過于稀疏的文本往往檢測效果不佳。同時由于算法需要細化到圖像的像素點判斷,一般計算量較大,耗時較長,標注成本也更高?;诤蜻x框的文本檢測算法若直接以文本框為回歸目標,會使得模型收斂效果受到影響。此外模型也較難適應多角度的文本。有人提出可以將文本框分割開,先以文本單元的形式進行檢測再合并。然而將文本單元合并為文本行的算法,目前主要依靠繁雜的程序設計實現,并且依賴于人為設計的強先驗,對于多角度的文本合并依舊效果不佳,且容易出現漏字、過度合并等現象。而融合方案則帶來了更大的計算量,檢測效果卻往往沒有顯著的提升。
針對上述問題,本文提出了一種基于多分類的文本檢測方法,該方法考慮到文本連接的困境,在基于單階段的文本單元檢測模塊中引入文本單元連接方向的多分類判斷機制,使該模塊在輸出文本單元坐標的同時,輸出連接方向與連接起止標識。
發明內容
為了解決現有文本連接困難、自然場景下文本定位不準確、漏檢、誤檢等問題,本申請提供一種基于多分類的文本檢測方法及系統,以解決上述技術缺陷問題。
根據本發明的一個方面提出了一種基于多分類的文本檢測方法,該方法包括以下步驟:
S1、獲取并整理文本框樣本,將文本框樣本切分成文本單元,并對文本單元的坐標和標志位進行標注;
S2、將文本框樣本按比例生成訓練集和驗證集,并且對文本單元的標志位賦類標;
S3、構建文本單元檢測網絡模型,通過文本單元檢測網絡模型對訓練集進行訓練至損失收斂,獲取完成訓練的模型輸出,輸出為集合B;
S4、構建文本單元合并算法,根據標志位的類標劃分集合B,形成多個子集,根據當前元素和當前元素所屬子集內的元素計算獲取點集cnt外接矩形,外接矩形為合并完成的文本框;以及
S5、將驗證集輸入步驟S3中完成訓練的模型中,最終獲得驗證集上所有的文本框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211321333.5/2.html,轉載請聲明來源鉆瓜專利網。





