[發(fā)明專利]文本檢測方法、裝置及電子設備在審
| 申請?zhí)枺?/td> | 201811323981.8 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109492638A | 公開(公告)日: | 2019-03-19 |
| 發(fā)明(設計)人: | 謝恩澤;邵帥 | 申請(專利權)人: | 北京曠視科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06N3/04 |
| 代理公司: | 北京超凡志成知識產(chǎn)權代理事務所(普通合伙) 11371 | 代理人: | 蘇勝 |
| 地址: | 100000 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本檢測 文本 文本區(qū)域 掩膜 裝置及電子設備 待檢測圖像 特征圖 檢測 網(wǎng)絡 輸入文本 不規(guī)則 子網(wǎng)絡 圖像檢測技術 背景區(qū)域 檢測圖像 傾斜文本 輸出結果 輸出特征 水平文本 特征提取 網(wǎng)絡提取 分割 | ||
本發(fā)明提供了一種文本檢測方法、裝置及電子設備,屬于圖像檢測技術領域,其中,文本檢測方法包括:通過特征提取網(wǎng)絡提取待檢測圖像的特征圖;將特征圖輸入文本檢測網(wǎng)絡,根據(jù)文本檢測網(wǎng)絡的輸出結果確定待檢測圖像中的文本區(qū)域;所述文本檢測網(wǎng)絡至少包括掩膜子網(wǎng)絡,用于輸出特征圖中的文本區(qū)域?qū)奈谋狙谀ぁ1景l(fā)明提供的文本檢測方法、裝置及電子設備,將待檢測圖像的特征圖輸入文本檢測網(wǎng)絡,通過文本檢測網(wǎng)絡中的掩膜子網(wǎng)絡將文本區(qū)域與背景區(qū)域進行分割,生成文本區(qū)域?qū)奈谋狙谀ぃ粌H可以檢測圖像中的水平文本或傾斜文本,還可以檢測彎曲文本或不規(guī)則文本,增強了文本檢測的通用性,并且提高了對彎曲文本或不規(guī)則文本的檢測精度。
技術領域
本發(fā)明屬于圖像檢測技術領域,尤其是涉及一種文本檢測方法、裝置及電子設備。
背景技術
隨著圖像采集裝置在拍照手機、掌上電腦等智能電子設備上的廣泛應用,基于圖像內(nèi)容的圖像檢測技術受到越來越多的重視,在圖像所包含的內(nèi)容當中,由于文本信息更容易被人類和計算機理解,因而受到更多的關注。在很多應用場景中,如車牌識別,自動駕駛場景下的路牌識別,圖文檢索等,都需要對圖像中的文本信息進行檢測。
對于自然場景圖像中的文本信息進行檢測,現(xiàn)有的方法通常是基于區(qū)域?qū)φ匀粓鼍皥D像進行檢測生成文本候選框,再對文本候選框進行非極大值抑制,獲得最終的文本包圍框的位置。但現(xiàn)有的方法只能檢測自然場景圖像中的水平或者傾斜文本,而無法檢測彎曲文本或?qū)澢谋镜臋z測結果不準確。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種文本檢測方法、裝置及電子設備,可以提高對彎曲文本及不規(guī)則文本的檢測精度。
為了實現(xiàn)上述目的,本發(fā)明實施例采用的技術方案如下:
第一方面,本發(fā)明實施例提供了一種文本檢測方法,包括:
通過特征提取網(wǎng)絡提取待檢測圖像的特征圖;
將所述特征圖輸入文本檢測網(wǎng)絡,根據(jù)所述文本檢測網(wǎng)絡的輸出結果確定所述待檢測圖像中的文本區(qū)域;所述文本檢測網(wǎng)絡至少包括掩膜子網(wǎng)絡,所述掩膜子網(wǎng)絡用于將所述特征圖中的文本區(qū)域與背景區(qū)域進行分割,輸出所述特征圖中的文本區(qū)域?qū)奈谋狙谀ぁ?/p>
結合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,所述特征提取網(wǎng)絡包括殘差網(wǎng)絡和特征金字塔網(wǎng)絡,通過特征提取網(wǎng)絡提取待檢測圖像的特征圖的步驟,包括:
將所述待檢測圖像輸入所述殘差網(wǎng)絡,得到所述殘差網(wǎng)絡輸出的多個尺度的特征響應圖;
將所述多個尺度的特征響應圖輸入所述特征金字塔網(wǎng)絡,得到所述特征金字塔網(wǎng)絡輸出的多個尺度的特征圖;所述特征金字塔網(wǎng)絡包括多個網(wǎng)絡層,每個所述網(wǎng)絡層對應輸入一種尺度的特征響應圖,輸出對應尺度的特征圖。
結合第一方面,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,根據(jù)所述文本檢測網(wǎng)絡的輸出結果確定所述待檢測圖像中的文本區(qū)域的步驟,包括:
獲取預先配置的輸出框的類型;
如果所述輸出框的類型為水平框,獲取所述文本檢測網(wǎng)絡輸出的文本掩膜對應的最小外接水平框,將所述最小外接水平框覆蓋的區(qū)域作為所述待檢測圖像中的文本區(qū)域;
如果所述輸出框的類型為傾斜框,獲取所述文本檢測網(wǎng)絡輸出的文本掩膜對應的帶有傾斜角度的最小傾斜矩形框,將所述最小傾斜矩形框覆蓋的區(qū)域作為所述待檢測圖像中的文本區(qū)域。
結合第一方面或第一方面的第一種可能的實施方式,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,所述文本檢測網(wǎng)絡還包括分類子網(wǎng)絡和/或回歸子網(wǎng)絡;所述分類子網(wǎng)絡用于判斷所述特征圖中是否包含文本區(qū)域,輸出所述特征圖的分類結果;所述回歸子網(wǎng)絡用于確定所述特征圖中的水平文本區(qū)域的位置,輸出包含水平文本區(qū)域的包圍框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京曠視科技有限公司,未經(jīng)北京曠視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811323981.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





