[發明專利]文字檢測方法和裝置有效
| 申請號: | 201810090633.4 | 申請日: | 2018-01-30 |
| 公開(公告)號: | CN108304835B | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 劉家銘;章成全;韓鈞宇;丁二銳 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34;G06K9/62;G06N3/08 |
| 代理公司: | 11204 北京英賽嘉華知識產權代理有限責任公司 | 代理人: | 王達佐;馬曉亞<國際申請>=<國際公布> |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選字符 待檢測圖像 文字檢測 包圍盒 像素點 方法和裝置 特征提取 映射網絡 字符檢測 字符像素 字符組 位置信息確定 檢測圖像 特征輸入 網絡預測 文字區域 預測結果 字符向量 準確度 不規則 特征圖 層級 網絡 抽象 輸出 概率 申請 | ||
本申請實施例公開了文字檢測方法和裝置。該方法的一具體實施方式包括:采用特征提取網絡對待檢測圖像進行多個抽象層級的特征提取;采用字符檢測網絡預測出待檢測圖像中每個像素點為字符像素點的概率、以及每個像素點為字符像素點時該像素點相對于其所在的字符的包圍盒的位置信息;基于字符檢測網絡的預測結果確定出各候選字符的包圍盒的位置信息;將提取出特征輸入字符映射網絡,對字符映射網絡輸出的特征圖進行變換,生成字符向量;在待檢測圖像中確定各候選字符的近鄰候選字符,并將各候選字符與相關的近鄰候選字符連接為字符組;根據字符組中各候選字符的包圍盒的位置信息確定待檢測圖像的文字區域。該實施方式提升了不規則文字檢測的準確度。
技術領域
本申請實施例涉及計算機技術領域,具體涉及圖像處理技術領域,尤其涉及文字檢測方法和裝置。
背景技術
隨著計算機視覺技術的發展,基于圖像的文字檢測和文字識別技術得到了越來越廣泛的應用,例如在文檔處理,地理位置讀取、圖像檢索等方面,文字檢測和文字識別具有很多實際的應用。
在光學字符識別(Optical Character Recognition,OCR)領域中,文字邊框通常被定義為矩形的檢測框,文字之間的連接通常呈直線連接。然而實際采集數據中存在大量扭曲、變形等不規則的文字組合,例如由于圖像畸變或拍攝角度造成的圖像中文字發生扭曲、或在一些諸如商標、徽章等的設計中會采用一些變形的字符。
現有的文字檢測算法中要求圖像中的基本組件之間的連接呈直線,或者需要像素級的標注精度,不易于應用在更廣泛的場景中。
發明內容
本申請實施例提出了文字檢測方法和裝置。
第一方面,本申請實施例提供了一種文字檢測方法,包括:采用文字檢測模型的特征提取網絡對待檢測圖像進行多個抽象層級的特征提取;基于提取出的待檢測圖像的特征,采用文字檢測模型的字符檢測網絡預測出待檢測圖像中每個像素點為字符像素點的概率、以及每個像素點為字符像素點時該像素點相對于其所在的字符的包圍盒的位置信息;基于每個像素點為字符像素點的概率以及每個像素點為字符像素點時該像素點相對于其所在的字符的包圍盒的位置信息確定出各候選字符的包圍盒的位置信息;將提取出的待檢測圖像的特征輸入文字檢測模型的字符映射網絡,基于各候選字符的包圍盒的位置信息對字符映射網絡輸出的特征圖進行變換,生成用于表征候選字符的特征的字符向量;基于候選字符的包圍盒的位置信息,在待檢測圖像中確定各候選字符的近鄰候選字符,并根據利用字符向量計算得出的候選字符與對應的近鄰候選字符之間的差異程度將各候選字符與相關的近鄰候選字符連接為字符組;根據字符組中各候選字符的包圍盒的位置信息確定待檢測圖像的文字區域。
在一些實施例中,上述采用文字檢測模型的特征提取網絡對待檢測圖像進行多個抽象層級的特征提取,包括:將待檢測圖像輸入特征提取網絡中,抽取特征提取網絡的多個不同卷積層的輸出作為多個抽象層級的特征;拼接多個抽象層級的特征,或利用特征金字塔網絡對多個抽象層次的特征進行處理,生成待檢測圖像的特征。
在一些實施例中,上述每個像素點為字符像素點時該像素點相對于其所在的字符的包圍盒的位置信息,包括:每個像素點為字符像素點時該像素點的坐標相對于其所在的字符的矩形包圍盒的對角線上的兩個頂點坐標的偏移量。
在一些實施例中,上述基于每個像素點為字符像素點的概率以及每個像素點為字符像素點時該像素點相對于其所在的字符的包圍盒的位置信息確定出各候選字符的包圍盒的位置信息,包括:確定概率高于預設概率閾值的像素點為字符像素點;基于確定出的各字符像素點的坐標相對于其所在的字符的矩形包圍盒的對角線上的兩個頂點的坐標的偏移量,確定由字符像素點定位出的字符的包圍盒的坐標;采用非極大值抑制法濾除各字符像素點定位出的字符的包圍盒的坐標中被重復定位的字符的包圍盒的坐標,得到各候選字符的包圍盒的坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810090633.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物體跟隨方法
- 下一篇:一種基于圖像的圖書排序檢測方法





